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内 容 简 介 


本 书 从 初学 者 角度 出 发 ， 通 过 丰富 的 实例 ， 详 细 介 绍 了 大 数据 开发 环境 和 基本 知识 点 的 应 用 。 全 书 内 
容 包 括 : 大 数据 系统 基础 篇 、Hadoop HRS. Spark 技术 篇 和 项 目 实战 篇 。 大 数据 系统 基础 篇 讲解 Linux 
NG 2245. Linux 的 使 用 和 在 Linux 系统 上 安装 并 使 用 MySQL:; Hadoop 技术 篇 讲解 Hadoop 集群 的 搭建 .Hadoop 
两 大 核心 的 原理 与 使 用 、Hadoop 生态 圈 的 工具 原理 与 使 用 (Hive、HBase、Sqoop、Flume ^5); Spark 技术 
篇 讲解 Spark 集群 的 搭建 、Scala 语言 


言 、RDD、Spark SQL. Spark streaming 和 机 器 学 习 ; 项 目 实战 篇 将 真实 
的 电力 能 源 大 数据 分 析 项 目 作 为 实战 解读 ， 帮 助 初学 者 快速 入 门 。 

本 书 所 有 知识 点 都 结合 具体 实例 和 程序 讲解 ， 便 于 读者 理解 和 掌握 。 本 书 适合 作为 高 等 院 校 计算 机 应 
用 、 大 数据 技术 及 相关 专业 的 教材 ;也 适合 作为 大 数据 开发 入 门 者 的 自学 用 书 ， 可 快速 提高 开发 技能 。 
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随 着 信息 技术 的 不 断 发 展 ， 以 及 物 联 网 、 社 交 网 络 、 移 动 终端 等 新 兴 技 术 与 服务 的 不 
断 涌现 和 广泛 应 用 ， 数 据 种 类 日 益 增多 ， 数 据 的 规模 急剧 增 大 ， 大 数据 时 代 已 悄然 来 临 。 
由 于 大 数据 对 政府 决策 、 商 业 规 划 和 和 危险 预防 等 方面 所 起 的 重大 作用 ， 大 数据 逐渐 成 为 一 
种 重要 的 国家 战略 性 资源 ， 受 到 政府 、 能 源 及 信息 领域 的 普遍 关注 。 大 数据 的 多 样 性 
(Variety)、 规 模 性 (Volume) 和 高 速 性 CVelocity) 等 特点 ， 使 得 传统 的 数据 存储 、 管 理 、 
分 析 技术 已 经 无 法 满足 大 数据 的 处 理 要 求 。 

时 至 今日 ， 无 论 你 是 来 自 互联 网 、 通 信行 业 ， 还 是 来 自 金融 业 、 服 务 业 或 零售 业 ， 相 
信 你 都 不 会 对 大 数据 感到 陌生 。 调 查 显 示 ，32.5% 的 公司 正在 搭建 大 数据 平台 ，29.5% 的 公 
司 已 经 在 生产 环境 实践 大 数据 技术 ， 并 有 成 功 的 用 例 /产品 ，24.5% 的 公司 已 经 做 了 足够 的 
了 解 ， 开 发 准备 就 绪 ， 基 本 不 了 解 的 只 占 调查 对 象 的 13.5%。 根 据 某 知 名 数据 公司 的 调查 
数据 , 目前 国内 市 场 的 I 人才 缺口 已 经 高 达 几 十 万 , 到 2025 年 , 这 一 数字 还 会 增加 至 200 
万 ,“ 尤 其 是 大 数据 技术 方面 的 人 才 ”。 在 智联 、58 同城 等 大 型 招聘 网 站 最 新 发 布 的 招聘 职 
位 中 ， 大 数据 相关 岗位 占 比 已 经 超过 50%， 薪 酬 比 软 件 工 程 师 高 10% 以 上 。 由 此 可 见 ， 大 
数据 人 才 的 培养 是 一 份 重大 的 责任 和 使 命 。 

1 高 校 大 数据 人 才 培 养 的 背景 

CD 高 校 教 育 中 ， 大 数据 人 才 培 养 存 在 起 步 晚 、 规 模 化 不 足 的 问题 ， 而 且 高 校 学 生 从 
大 学 入 学 到 研究 生 毕 业 需 要 相当 长 的 一 段 时 间 。 本 书 从 实用 的 角度 出 发 ， 为 高 校 快速 培养 
大 数据 人 才 提 供 可 行 性 。 

(2) 如 前 文 所 述 ， 大 数据 人 才 紧 缺 的 现象 在 全 球 越 来 越 突出 。 在 此 背景 下 ， 本 书 旨 在 
弥补 高 校 大 数据 教材 的 不 足 ， 以 模拟 真实 生产 环境 为 教学 目标 ， 为 企业 培养 “到 岗 就 能 用 ” 
的 大 数据 实用 型 人 才 。 

(3) 经 济 社会 的 高 速 发 展 ， 对 IT 产业 (尤其 是 软件 产业 ) 提出 了 更 高 的 要 求 ， 对 大 数 
据 开 发 人 才 从 数量 和 质量 方面 提出 了 更 高 的 要 求 。 

(4) 教育 技术 的 进步 和 移动 互联 网 时 代 的 到 来 , 打破 了 高 校 进行 知识 传播 的 技术 壁垒。 
大 量 的 资本 和 风险 投资 涌 进 IT 培训 产业 。 达 内 、 传 智 播客 等 实体 IT 培训 机 构 ， 开 课 吧 、 
莫 课 网 、 极 客 网 等 在 线 IT 培养 机 构 纷纷 引入 先进 的 教学 理念 、 强 大 的 技术 支持 ， 再 加 上 商 
业 化 运作 ， 对 高 校 IT 人 才 培 养 带 来 巨大 的 挑战 和 竞争 压力 。 

(5) 教学 环境 的 变化 。 教 室 、 实 验 室 硬件 配置 齐全 ， 实 现 了 高 速 稳定 的 互联 网 接 入 ， 
笔记 本 电脑 和 手机 等 互联 网 接 入 设备 日 渐 普 及 ， 这 些 都 为 先进 教学 理念 和 教学 模式 〈 如 微 
WO 的 实施 提供 了 硬件 和 软件 上 的 准备 。 

(6) 教育 参与 者 。 教 师 应 该 树立 “教育 就 是 服务 ”的 教育 观念 ， 贯 彻 工程 教育 的 教育 
理念 ， 从 注重 “教师 教 什么 ”转移 到 “学 生 学 到 了 什么 ”。 学 生 作 为 “数字 原 住民 ” 对 新 
鲜 事物 、 新 技术 、 新 教学 方式 (人 性 化 学 习 、 泛 在 学 习 等 ) 有 着 天 然 的 渴望 ， 教 师 应 尽量 
多 利用 新 的 教学 手段 ， 提 升 课程 的 吸引 力 。 
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综 上 所 述 , IT 产业 、 软 件 技术 以 及 软件 人 才 培 养 中 的 教学 理念 、 教 学 模式 、 教 学 环境 、 
教学 对 象 等 因素 的 发 展 变化 倒 逼 着 高 校 进行 教学 改革 ， 教 师 必 须 围绕 以 上 因素 进行 教学 创 
新 ， 传 统 教材 形式 的 革新 也 势 在 必 行 。 

2. 本 书 内 容 

全 书 内 容 分 为 大 数据 系统 基础 、Hadoop 技术 、Spark 技术 和 项 目 实战 4 部分。 其 中 ， 
Linux 是 学 习 大 数据 技术 的 基础 ， 先 从 Linux 入 手 ， 打 下 坚实 的 基础 ， 之 后 才能 更 好 地 学 
习 Hadoop 和 Spark。4 部 分 内 容 分 别 介绍 如 下 。 

大 数据 系统 基础 篇 通过 大 数据 概述 、Linux 系统 安装 、Linux 系统 基础 命令 、Shell 编 
FLA MySQL 数据 操作 ， 为 以 后 编程 商定 坚实 的 基础 。 

Hadoop 技术 篇 以 Hadoop 生态 圈 为 中 心 ， 详 细 介 绍 Hadoop 高 可 用 集群 搭建 、HDFS 
技术 、MapReduce 技术 、Hive 技术 ， 为 读者 学 习 大 数据 开发 技术 提供 便利 ， 并 以 实用 的 方 
式 简单 介绍 HBase、Sqoop、Flume 工具 的 使 用 ， 使 读者 在 精通 一 门 技术 的 前 提 下 ， 能 扩展 
了 解 相关 知识 ， 真 正成 为 一 专 多 能 的 专业 型 人 才 。 

Spark 技术 篇 从 Spark 概述 、Scala 语言 、 环 境 搭 建 、RDD 核心 技术 、Spark SQL 和 机 
器 学 习 等 多 方面 讲解 Spark 大 数据 的 开发 ， 从 基础 的 Scala 语言 开始 学 习 ， 并 以 Hadoop 环 
境 为 基础 搭建 Spark 大 数据 集群 ， 从 最 基础 、 最 常用 、 最 容易 理解 的 思路 出 发 ， 帮 助 读 者 
逐步 掌握 Spark 大 数据 技术 。 

项 目 实战 篇 从 真实 项 目 “ 电 力 能 源 大 数据 分 析 ” 中 抽取 一 部 分 业务 作为 实战 解读 ， 通 
过 简洁 的 流程 讲解 ， 使 读者 了 解 大 数据 项 目 开发 的 整个 过 程 。 

3， 本 书 特色 

本 书 不 是 对 相关 原理 进行 纯 理 论 的 阐述 ， 而 是 提供 了 丰富 的 上 机 实践 操作 和 范例 程 
序 ， 极 大 地 降低 了 读者 学 习 大 数据 技术 的 门槛 。 对 于 需要 直接 上 机 实践 的 读者 而 言 ， 本 书 
更 像 是 一 本 大 数据 学 习 的 实践 上 机 手册 。 书 中 首先 展示 了 如 何在 单 台 Windows 系统 上 通过 
VirtualBox 虚拟 机 安装 多 台 Linux 虚拟 机 , 而 后 建立 Hadoop 集群 , 再 建立 Spark 开发 环境 。 
搭建 这 个 上 机 实践 的 平台 并 不 限制 于 单 台 实体 计算 机 ， 主 要 是 考虑 个 人 读者 上 机 实践 的 实 
际 条 件 和 环境 。 对 于 有 条 件 的 公司 和 学 校 ， 参 照 这 个 搭建 过 程 ， 同 样 可 以 将 实践 平台 搭建 
在 多 台 实 体 计算 机 上 。 

搭建 好 大 数据 上 机 实践 的 软 硬 件 环境 之 后 ， 就 可 以 在 各 个 章节 的 学 习 中 结合 本 书 提供 
的 范例 程序 逐一 设置 、 修 改 、 调 试 和 运行 ， 从 中 体会 大 数据 实践 应 用 的 真 详 一 一 对 大 数据 
进行 高 效 的 “加 工 ”， 蔡 取 大 数据 中 冀 含 的 “智能 和 知识 ”， 实现 数据 的 “增值 ”并 最 终 将 
其 应 用 于 实际 工作 或 者 商业 项 目 中 。 

4. 本 书 的 使 用 

第 1 篇 讲解 Linux 系统 和 Linux 系统 上 的 软件 应 用 。 本 篇 是 学 习 大 数据 技术 的 第 一 步 ， 
就 如 同 你 要 学 习 Java 开发 ， 必 须 先 学 会 操作 Windows 系统 一 样 。 

第 2 篇 讲解 Hadoop 大 数据 技术 。Hadoop 大 数据 集群 要 求 在 CentOS 6.9 版 本 的 系统 上 
搭建 ,JDK 版 本 为 JDK 1.8, Hadoop 版 本 为 Hadoop 2.6.5, Zookeeper hA J Zookeeper 3.4.10. 

第 3 篇 讲解 在 Hadoop 大 数据 技术 的 基础 上 搭建 Spark 环境 ， 所 以 读者 在 学 习 本 篇 内 
容 之 前 ， 需 要 熟悉 第 2 篇 中 的 Hadoop 大 数据 集群 搭建 的 内 容 。 

第 4 篇 讲解 电力 大 数据 项 目 , 是 基础 HDFS 的 离线 分 析 项 目 , 读者 需要 掌握 Java 知识 、 
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第 1 章 大 数据 概述 


大 数据 是 目前 最 热门 的 技术 之 一 。 顾 名 思 义 ， 大 数据 的 “大 ”是 指 相对 于 传统 意义 上 
的 数据 量 来 说 ， 它 的 数据 体 量 很 大 ,这些 数据 信息 是 海量 信息 ， 且 在 动态 变化 和 快速 增长 。 
多 样 性 : 大 数据 是 异 构 的 ， 且 是 多 样 性 的 ;价值 密度 大 ， 大 量 的 数据 包含 了 大 量 的 数据 信 
息 ， 对 这 些 看 似 不 相关 的 数据 信息 进行 对 未 来 趋势 和 模式 的 可 预测 分 析 具 有 巨 “ 大 ”的 价 
值 。 速 度 : 对 于 这 些 海量 数据 ， 需 要 快速 获取 信息 ， 这 就 需要 奇 “ 快 ”的 速度 。 大 数据 的 
这 些 特 征 能 带 来 预测 未 来 、 决 胜 千 里 的 能 力 ， 给 生活 特别 是 企业 带 来 巨大 的 价值 。 

要 想 实现 大 数据 的 这 些 价 值 ， 就 需要 大 数据 技术 的 支撑 ， 包 括 数据 的 存储 、 数 据 的 管 
理 、 数 据 的 计算 和 建 模 、 数 据 分 析 以 及 数据 的 可 视 化 。 

为 了 解决 这 些 问题 ，Hadoop 和 Spark 应 运 而 生 ， 作 为 大 数据 处 理 系统 ， 它 们 利用 分 布 
式 文 件 存储 系统 、 高 可 靠 性 以 及 高 可 用 的 分 布 式 计算 框架 可 以 构建 庞大 的 高 可 靠 、 高 效率 
的 集群 ， 为 快速 地 从 大 体 量 、 庞 杂 的 数据 中 获取 有 价值 的 数据 提供 了 强 有 力 的 技术 支撑 。 
本 书 立 足 于 生产 实践 的 实际 应 用 ， 从 最 基础 的 Linux 平台 的 学 习 入 手 ， 再 到 Hadoop 体系 
和 Spark 体系 。 本 书包 含 了 想 要 走向 或 者 正在 走向 大 数据 之 路 的 读者 所 要 掌握 的 绝 大 部 分 
基础 知识 。 


11 数据 的 产生 与 发 展 


随 着 计算 机 和 信息 技术 的 迅猛 发 展 ， 人 们 从 工业 时 代 迈 向 了 互联 网 时 代 。 随 着 人 们 获 
取信 息 的 方式 和 方法 的 改变 ， 各 行业 应 用 系统 的 规模 迅速 扩大 ， 所 产生 的 数据 呈 井 喷 式 增 
长 。 很 多 应 用 产生 的 数据 量 每 天 达到 数 十 TB、 数 百 TB 甚至 数 PB 的 规模 ， 各 行业 所 应 用 
的 大 数据 已 远 远 超出 了 传统 计算 机 和 信息 技术 的 处 理 能 力 。 因 此 ， 需 要 迫切 寻求 有 效 的 大 
数据 处 理 技术 、 方 法 和 手段 。 

2003 年 ，Google 发 布 了 有 关 Google File System 的 论文 ， 详 细 阐 述 了 一 个 可 扩展 的 分 
布 式 文件 系统 ， 用 于 大 型 的 、 分 布 式 对 大 量 数据 进行 访问 的 应 用 。 在 此 基础 上 ，Google 又 
陆续 发 表 了 有 关 MapReduce 和 Bigtable 的 论文 。 

2005 年 ， 基 于 Google 发 表 的 前 两 篇 论文 的 理论 ，Hadoop 应 运 而 生 。Hadoop 最 初 只 
是 雅虎 公司 用 来 解决 网 页 搜索 问题 的 一 个 项 目 ， 后 因 其 技术 的 高 效 性 ， 被 Apache Software 
Foundation 公司 引入 并 成 为 开源 应 用 ， 为 其 发 展 和 广泛 使 用 打下 了 坚实 基础 。 

2008 年 末 ,“ 大 数据 ”得 到 部 分 美国 知名 计算 机 科学 研究 人 员 的 认可 ， 业 界 组 织 计算 
社区 联盟 (Computing Community Consortium) 发 表 了 一 份 有 影响 力 的 白皮书 一 (KEL 
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据 计 算 : 在 商务 、 科 学 和 社会 领域 创建 革命 性 突破 》。 它 使 人 们 的 思维 不 再 局 限于 数据 处 理 
的 机 器 ， 并 提出 “大 数据 真正 重要 的 是 新 用 途 和 新 见解 ， 而 非 数 据 本 身 ” 使 人 们 对 大 数据 
有 了 新 的 认 知 。 

2009 年 ，Spark 在 伯克利 大 学 AMPLab 产生 。 它 最 初 属于 伯克利 大 学 的 研究 性 项 目 ， 
2010 年 正式 开源 ，2013 年 成 为 Apache 基金 项 目 ， 并 于 2014 年 成 为 Apache 基金 的 顶级 项 
目 ， 整 个 过 程 用 时 不 到 5 年 。 

2011 年 5 月 ， 全 球 知 名 咨询 公司 麦肯锡 (McKinsey&Company) 在 麦肯锡 全 球 研究 院 
MGI) 发 布 了 一 份 报告 一 一 《大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 个 新 领域 ;， 标 志 着 大 
数据 开始 备 受 关注 。 这 也 是 专业 机 构 第 一 次 全 方面 介绍 和 展望 大 数据 ， 为 大 数据 的 发 展 和 
普及 带 来 良好 机 遇 。2011 年 12 月 ， 我 国 工信部 发 布 物 联网 “十 二 五 ”规划 ， 提 出 把 信息 
处 理 技术 作为 4 项 关键 技术 的 创新 工程 之 一 ， 其 中 包括 了 海量 数据 存储 、 数 据 挖掘 、 图 像 
视频 智能 分 析 ， 这 都 是 大 数据 的 重要 组 成 部 分 ， 为 我 国 的 大 数据 发 展 提供 了 新 的 发 展 机 遇 
和 强 有 力 的 政府 支持 。 

2012 年 1 月 ,在 瑞士 达 沃 斯 召开 的 世界 经 济 论坛 上 ， 大 数据 作为 主题 之 一 。 会 上 发 布 
的 报告 《大 数据 ， 大 影响 》(Big Data, Big Impact) 提出 大 数据 的 价值 和 黄金 一 样 ， 使 人 们 
认识 到 数据 的 重要 性 。 

2015 年 ， 国 务 院 正式 印发 《促进 大 数据 发 展 行动 纲要 》， 明 确 了 大 数据 的 发 展 前 景 和 
应 用 ， 标 志 着 大 数据 正式 上 升 为 国家 战略 。 

2016 «E, 《大 数据 “十 三 五 ”规划 》( 以 下 简称 《规划 》) 出 台 。《 规 划 》 提 出 实施 国家 
大 数据 战略 ， 促 进 大 数据 产业 健康 发 展 ， 深 化 大 数据 在 各 行业 的 创新 应 用 ， 探 索 与 传统 产 
业 协 同 发 展 的 新 业态 、 新 模式 ， 加 快 完 善 大 数据 产业 链 ， 加 快 海量 数据 采集 、 存 储 、 清 洗 、 
分 析 发 据 、 可 视 化 、 安 全 与 隐私 保护 等 领域 的 关键 技术 攻关 , 促进 大 数据 软 硬 件 产 品 发 展 ， 
完善 大 数据 产业 公共 服务 支撑 体系 和 生态 体系 ， 加 强 标准 体系 和 质量 技术 基础 建设 。 

从 大 数据 的 发 展 历程 和 政府 对 大 数据 的 支持 程度 来 看 ， 大 数据 已 成 为 促进 时 代 发 展 的 
重要 因素 。 它 将 带动 千 亿 甚至 更 多 的 产业 价值 ， 依 托 互联 网 的 发 展 和 普及 ， 获 得 更 多 的 数 
据 。 如 何 从 中 提取 出 有 价值 的 信息 , 成 为 急需 解决 的 问题 。 现 如 今 Hadoop 和 Spark 技术 提 
供 了 很 好 的 技术 平台 和 解决 方案 ， 但 国内 大 数据 发 展现 状 并 不 乐观 。 虽 然 得 到 政府 的 大 力 
支持 ， 但 由 于 大 数据 从 业者 的 匮乏 ， 企 业 难以 找到 合适 的 从 业 人 员 ， 阻 碍 了 企业 的 发 展 ， 
这 就 要 求 培养 更 多 的 大 数据 从 业者 来 支撑 大 数据 产业 的 健康 快速 发 展 。 

目前 大 数据 所 涉及 的 范围 非常 广泛 ， 小 到 日 常生 活 的 购物 、 医 疗 ， 大 到 企业 未 来 决策 
和 长 期 规划 。 不 论 是 消费 行业 、 金 融 行业 、 医 疗 行业 ， 还 是 区 块 链 、 机 器 学 习 、 人 工 智能 
等 ， 都 离 不 开 大 数据 的 支持 。 大 数据 已 融入 生活 的 方方面面 , 未 来 的 时 代 是 大 数据 的 时 代 。 
大 数据 产业 已 经 上 升 到 国家 战略 的 高 度 ， 未 来 将 会 有 更 广阔 的 市 场 前 景 和 应 用 价值 。 


1.2 大 数据 的 基础 知识 
初学 者 想 要 系统 地 学 习 大 数据 知识 ， 必 须要 有 一 定 的 大 数据 基础 知识 储备 ， 只 有 打下 


牢固 的 基础 ， 才 能 收 到 事半功倍 的 效果 。 
首先 , 目前 主流 的 大 数据 平台 Hadoop 和 Spark 都 是 运行 在 JVM LI. 特别 是 Hadoop 


本 身 就 是 使 用 Java 开发 出 来 的 系统 ， 所 以 在 学 习 Hadoop 之 前 必须 掌握 一 定 的 Java 知识 ， 
这 对 后 面 Hadoop 应 用 的 开发 和 使 用 是 必 不 可 少 的 。 另 外 ， 目 前 这 些 大 数据 系统 基本 都 运 
行 在 Linux 系统 中 ， 因 此 学 会 Linux 的 基本 操作 也 是 必需 的 。 本 书 考虑 到 广大 学 习 者 的 需 
求 , 从 最 基础 的 知识 入 手 , 在 第 2 章 对 常用 Linux 命令 进行 了 详细 讲解 , 消除 读者 由 于 Linux 
系统 不 熟悉 带 来 的 困扰 。 

在 大 数据 的 操作 过 程 中 ， 会 涉及 对 现在 使 用 非常 广泛 的 关系 型 数据 库 的 使 用 。 因 此 ， 
在 前 面 的 基础 章节 也 对 MySQL 数据 库 的 操作 进行 了 基本 的 讲解 。 

Spark 由 Scala 语言 开发 而 来 ， 虽 然 它 可 以 和 Java 语言 进行 很 好 的 兼容 ， 但 是 它 提供 
了 很 多 新 的 特性 ， 对 Scala 语言 的 学 习 有 助 于 深入 地 了 解 和 学 习 Spark. 

本 书 充分 考虑 初学 者 的 学 习 需 求 ， 立 足 实战 ， 从 基本 的 运行 平台 开始 ， 再 到 关键 知识 
点 的 讲解 ， 事 无 巨细 ， 以 解决 大 家 在 迈 向 大 数据 殿堂 的 路 上 所 遇 到 的 问题 。 


13 大 数据 架构 


大 数据 架构 体系 现在 主要 使 用 的 是 Hadoop 和 Spark。 下 面 对 Hadoop 和 Spark 的 体系 
架构 进行 简要 介绍 ， 具 体 的 内 容 将 在 每 一 个 章节 进行 详解 。 

就 目前 的 大 数据 体系 来 说 ， 要 构建 一 个 大 数据 平台 ， 主 要 依靠 Linux 系统 ， 它 是 工业 
界 运行 大 数据 平台 的 不 二 之 选 ， 所 以 目前 很 多 大 数据 软件 只 支持 Linux。 本 书 立足 实际 需 
要 ， 以 Linux 为 构建 平台 ， 它 是 搭建 大 数据 平台 的 基础 ， 具 体 常用 操作 需要 在 正式 讲解 开 
始 之 前 对 其 做 详细 讲解 。 

Hadoop 的 核心 技术 包含 分 布 式 文件 处 理 系 统 HDFS 以 及 分 布 式 数据 处 理 模型 和 执行 
环境 MapReduce。 本 书 主要 讲解 的 Hadoop 项 目 如 下 。 

* HDFS: 分 布 式 文件 处 理 系 统 ， 用 于 对 大 型 文件 的 处 理 和 拆 分 ， 为 构建 大 规模 集群 
和 高 可 用 的 文件 处 理 打 下 基础 。 

MapReduce: 分 布 式 数据 处 理 和 执行 环境 ， 用 于 对 大 规模 数据 集 进 行 运算 。 

Hive: 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 将 结构 化 的 数据 文件 映射 为 数据 库 表 ， 
并 提供 简单 SQL 查询 功能 ， 可 以 将 SQL 转化 为 MapReduce 进行 运算 。 

HBase: 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 它 适合 于 类 似 大 数据 的 非 结构 化 的 数据 
存储 的 数据 库 。 

Sqoop: 一 款 开 源 的 数据 传输 工具 ， 主 要 用 于 在 Hadoop 与 传统 的 数据 库 间 数据 的 
传递 。 

Flume: 由 Cloudera 提供 的 一 个 高 可 用 、 高 可 靠 ， 分 布 式 的 海量 日 志 采 集 、 聚 合 和 
传输 的 系统 。 

Spark 是 当今 最 活跃 且 相 当 高 效 的 大 数据 通用 计算 平台 ,是 Apache 三 大 顶级 开源 项 目 
之 一 。 目 前 ，Spark 已 经 发 展 成 为 包含 Spark SQL, Spark Streaming、GraphX、MLlib 等 众 
多 子 项 目的 集合 。 本 书 主要 对 Spark 的 一 些 实际 应 用 和 入 门 开 发 平台 的 搭建 进行 讲解 。 主 
要 框架 体系 包括 如 下 项 目 。 

© RDD: 弹性 分 布 式 数据 集 , 是 分 布 式 内 存 的 抽象 概念 , 它 提供 了 高 效 的 数据 流 处 理 。 

o Spark SQL: 它 是 用 来 处 理 结构 化 数据 的 Spark 组 件 ， 提 供 了 DataFrames 的 可 编程 
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抽象 模型 ， 可 视 为 分 布 式 的 SQL 查询 引擎 。 

e Spark Streaming: 它 是 基于 Spark 核心 的 流 式 计 算 的 扩展 ， 具 有 高 吞吐 量 和 容错 能 
力 强 的 特点 。 

e MLlib: 一 个 Spark 的 可 以 扩展 的 机 器 学 习 库 , 包含 通用 的 学 习 算法 和 工具 ， 本 书 主 
要 讲 线性 回归 算法 、 聚 类 分 析 和 协同 过 滤 这 几 种 常用 的 算法 。 

。 KafKa: 一 种 高 吞吐 量 、 分 布 式 的 发 布 订阅 消息 系统 ， 它 可 以 处 理 消 费 者 规模 消息 
的 数据 。 
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2.1.1 安装 CentOS 6.x 


本 节 介 绍 Linux 的 安装 。Linux 是 通过 VMware 虚拟 平台 进行 安装 的 ， 这 里 以 CentOS 
6.9 为 例 。 扫 描 二 维 码 可 以 观看 Linux 安装 视频 。 X 
CentOS 最 新 版 本 的 官方 下 载 地 址 为 : https://www.centos.org/download/. 
以 下 针对 各 个 版 本 的 ISO 镜像 文件 进行 说 明 。 
e CentOS-6.9-x86_64-DVD-1708.iso: 标准 安装 版 ， 一 般 推荐 下 载 这 个 
版 本 。 
* CentOS-6.9-x86_64-Everything-1708.iso: 对 完整 版 安装 盘 的 软件 进行 补充 ， 集 成 所 
有 软件 , 包含 CentOS 6.9 的 一 套 完整 软件 包 , 可 以 用 来 安装 系统 或 者 填充 本 地 镜像 。 
e CentOS-6.9-x86 64-Minimal-1708.iso: 精简 版 ， 自 带 软 件 最 少 。 


212 ”安装 步骤 


创建 虚拟 机 安装 (以 VMware 10 为 例 )。 
d) 在 VMware 中 创建 一 台新 的 虚拟 机 ， 如 图 2.1 所 示 。 


aan x| 


Workstation 10 


dh — | price AA 


RULE 


ADSENSE. 
puru Pain 
QT) m mere workstation tatia 
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(2) 选择 “ 自 定义 〈 高 级 )”， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.2 所 示 。 
(3) 单 击 “ 下 一 步 ”按钮 ， 如 图 2.3 所 示 。 
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HERE IHRE 
RENNER TRENE? 
欢迎 使 用 新 建 虚 拟 机 向 导 
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9 SEXIER 8 小 
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(4) 选择 “ 稍 后 安装 操作 系统 ”， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.4 所 示 。 


(5) 客户 机 操作 系统 选择 Linux, 
钮 ， 如 图 2.5 所 示 。 


版 本 选择 “CentOS 64 位 ”， 然 后 单 击 “ 下 一 步 ” 按 


安装 客户 机 操作 系统 
虚拟 机 如 同 物 埋 机 ， 需 要 操作 系统 。 您 将 如 何 安装 窜 户 机 操作 系统 ? 
RRRA: 


O 安装 程序 光盘 (D): 
|B DVD Rw 驱动 器 (6:) 


O 安装 程序 光盘 映像 文件 (so)XM): 
[D:\CentOS-6.9-x86_64-bin-DVD1.iso 


WAR). 


回 稍 后 安装 操作 系统 (5)。 
创建 的 虚拟 机 档 包 含 一 个 空白 硬盘 * 


(E550) G05) 
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选择 客户 机 操作 系统 
Rok obse M n 


客户 机 操作 系统 
© Microsoft Windows(W) 
@ Unux(L) 


© Novel NetWare(E) 


© Solar(S) 
© VMware ESX(X) 
© Heo) 


版 本 (V) 


[Centos 64 tz 


(25-0) [Kaw 
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(6) 在 这 里 可 以 选择 “虚拟 机 名 称 ” 和 “位 置 ”进行 设置 ， 如 图 2.6 所 示 。 
(7) 根据 自己 计算 机 的 情况 给 Linux 虚拟 机 分 配 “ 处 理 器 数量 ”和 “每 个 处 理 器 的 核 
心 数 量 ”。 注意 不 能 超过 自己 计算 机 的 核 数 ， 推 荐 处 理 器 数量 为 1， 每 个 处 理 器 的 核心 数量 
为 1， 如 图 2.7 所 示 。 


(8) 给 Linux 虚拟 机 分 配 内 存 。 分 配 的 内 存 大 小 不 能 超过 自己 本 机 的 内 存 大 小 ， 多 台 
运行 的 虚拟 机 的 内 存 总 和 不 能 超过 自己 本 机 的 内 存 大 小 ， 如 图 2.8 所 示 。 
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图 2.7 
(9) 使 用 NAT 方式 为 客户 机 操作 系统 提供 主机 IP 地 址 访问 主机 拨号 或 外 部 以 太 网 网 
络 连 接 ， 如 图 2.9 所 示 。 
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图 29 
(10) 选择 “SCSI 控制 器 ”类 型 为 LSILogic(LC)， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.10 
(11) 选择 “虚拟 磁盘 类 型 ”为 SCSI(S)， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.11 所 示 。 
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(12) 选择 “创建 新 虚拟 磁盘 ”， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.12 所 示 。 
(13) 根据 本 机 的 磁盘 大 小 给 Linux 虚拟 机 分 配 磁盘 ， 并 选择 “将 虚拟 磁盘 拆 分 成 多 个 
文件 ”， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.13 所 示 。 


Ka wae 
您 要 使 用 哪个 磁盘 ? Mig oos? 
di BAMEAI (GU): om =) 
© 创建 新 虚拟 磁盘 (V) 针对 CentOS 64 位 BBV): 20 GB 
和 
回 立即 分 吏 所 有 碰 间 空间 (A)。 
Ee ER a 
O 使 用 现 有 虚拟 磁盘 (E) ba: ON Bana Mae 
选择 此 选项 净重 新 使 用 之 前 配置 的 磁盘 。 
O 使 用 物理 磋 盘 (适用 于 高 级 用 户 XP) 
选择 此 选项 将 为 虚拟 机 提供 直接 访问 本 地 硬盘 的 权限 。 O 将 虚拟 开盘 存储 为 单个 文 站 (0) 
OF EMR AMS CHM) 
=. » UHH A ZBI (OSA BRR AY 
(Wm Ciso) K0] m «z-ge)[r-sw»][ mx ] 
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C140 根据 需要 修改 存储 磁盘 文件 的 位 置 。 如 果 不 更 改 ， 则 默认 存储 在 Linux 虚拟 机 安 
装 文件 目录 ， 如 图 2.14 所 示 。 
(15) 单 击 “ 完 成 ”按钮 ， 完 成 新 建 虚拟 机 向 导 ， 如 图 2.15 所 示 。 


指定 磁盘 文件 已 准备 好 创建 虚拟 机 
BATA MARS? 单 击 ' 完 成 他 键 虚拟 机 。 然 后 可 以 安装 CentOS 64 位。 
part 将 使 用 下 列 设 置 创 建 虚拟 机 : 
GB 容量 的 虚拟 详 盘 创建 一 个 碰 盘 文件 。 除 第 一 个 文件 之 外 ， 每 个 文件 的 文件 
PA nci mM 名 称 : Centos 64 位 
dum: :\BigData\Hadoop 
5). 版 本 : Workstation 10.0 
= 操作 系统 : CentOS 64 位 
硬盘: 20 GB, 拆 分 
A: 1024 MB 
网 络 适配器 : NAT 
其 他 设备 : CD/DVD, USB 控制 器 , 打印 机 , 声卡 
自 定义 硬件 (C)… 
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(16) 在 虚拟 机 名 字 上 右 击 ， 选 择 “ 设 置 ”命令 来 设置 安装 的 ISO 文件 。 选择 CD/ 
VD 一 “使 用 ISO 映像 文件 ”， 选 择 自己 的 镜像 文件 ， 然 后 单 击 “ 确 定 ” 按 钮 ， 如 图 2.16 
所 示 。 
AD 开启 设置 好 的 虚拟 机 ， 进 行 Linux 虚拟 机 的 安装 ， 如 图 2.17 所 示 。 
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(18) 选择 “不 再 显示 此 消息 ”， 然 后 单 击 “ 取 消 ”按钮 。 

(19) 进入 VMware 虚拟 机 , 选择 Install or upgrade an existing system 后 按 Enter 键 进行 
安装 。 或 者 不 进行 任何 操作 ， 它 将 倒计时 90 秒 后 自动 安装 ， 如 图 2.18 所 示 。 进 入 VMware 
后 可 以 按 Ctrl+Alt 组 合 键 退出 VMware. 
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Press [Tab] to edit options 


Automatic boot in 18 second: 


DEF 自动 检测 
则 打印 机 存在 
PE 自动 检测 BEEN CentOS 6 
图 2.17 图 2.18 
(20) 进入 安装 前 的 测试 页 面 , 通过 方向 键 选择 Skip 按钮 ， 跳 过 测试 ， 如 图 2.19 所 示 。 
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To begin testing the media before 
installation press OK. 


Choose Skip to skip the media test 
and start the installation. 
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(21) 单 击 Next 按钮 ， 进 行 下 一 步 操作 ， 如 图 2.20 所 示 。 
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Community ENTerprise Operating System 


Bp Next 


(22) 选择 “中 文 〈 简 体 )”， 然 后 单 击 Next 按钮 ， 如 图 2.21 所 示 。 
hi SS 


What language would you like to use during the 
installation process? 


D) 


Bulgarian (bbarapeku) 
Catalan (Català) 


Croatian (Hrvatski) 
Czech (Čeština) 
Danish (Dansk) 
Dutch (Nederlands) 
English (English) 
Estonian (eesti keel) 
Finnish (suomi) 
French (Français) 
German (Deutsch) 
Greek (EħAnvixá) 
Gujarati (waid) 
Hebrew (nav) 
Hindi (27) iol 


eua | | vex 
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(23) 选择 “美国 英语 式 ”， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.22 所 示 。 
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图 2.22 
(24) 选择 “基本 存储 设备 ”， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.23 所 示 。 
_—— 5 0 0 0 0 0] 


您 的 安装 将 使 用 哪 种 设 着 了 
基本 存储 设 首 
安装 或 者 升级 到 存储 设备 的 典型 类 型 。 如 果 侈 不 确定 哪个 迁 项 适合 您， 他 可能 应 该 选择 这 个 选项 。 


WENT 


O 安装 或 者 升 由 到 企业 级 设备 ， 比 如 存储 局 域 网 (SAN) 。 这 个 选项 可 直 您 添加 FCoE / ISCSI / zFCP MAHER ERU 
应 该 息 略 的 设备 ， 


(emo | Sw) 


图 2.23 
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(25) 单 击 “ 是 ， 忽 略 所 有 数据 ”按钮 ， 如 图 2.24 所 示 。 


A 以 下 设备 中 可 能 包含 数据 。 


=> VMware, VMware Virtual S 
œ 20480.0 MB pci-0000:00:10.0-scsi-0:0:0:0 


没有 在 这 个 设 着 中 探测 到 分 区 或 文件 系统 。 


这 可 能 是 因为 该 设备 为 空白 、 未 分 区 或 虚拟 。 如 果 不 是 ， 那 么 它 可 能 
有 一 些 数据 是 您 使 用 它 进行 安装 后 无 法 恢复 的 。 可 从 这 个 安装 中 删除 
该 设 首 以 保护 那些 数据 。 


您 确定 这 个 设 音 中 不 包含 有 价值 的 数据 吗 ? 
在 所 有 包含 未 探测 分 区 或 文件 系统 的 设备 中 应 用 我 的 选择 (A) 


[a aram (v) |] | 和 否 ,保留 所 有 数据 (N) 


图 2.24 


(26) 设置 Linux 虚拟 机 的 “主机 名 ”， 然 后 单 击 “ 下 一 步 ”按钮 ， 如 图 2.25 所 示 。 
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图 225 
(27) 设置 时 间 区 域 ， 选 中 “系统 时 钟 使 用 UTC 时 间 ” 复 选 框 ， 然 后 单 击 “ 下 一 步 ” 


按钮 ， 如 图 2.26 所 示 。 
(28) 设置 管理 员 用 户 root 的 密码 ， 如 图 2.27 所 示 。 


请 选择 两 本 地 时 区 最 近 的 城市 : 


| 选择 城市 : 上 海 ， 亚 渣 (中 国 东部 一 一 北京 广东， 上 海 等 。) 
Enca pi 


k 系统 时 钟 使 用 UTC 时 间 (S) 


EL 
zow) | || > Fs o) | 


图 2.26 


a 要 帐 导 被 用 来 管理 系 颖 。 请 为 根 用 户 输入 一 个 密码 。 


a w |: [| 
mudo: 


zow) s F-5 (N) | 


图 2.27 


(29) 选择 “使 用 所 有 空间 ” 然后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 2.28 所 示 。 
(30) 单 击 “ 将 修改 写 入 磁盘 ”按钮 ， 如 图 2.29 所 示 。 
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图 2.28 


LLLI LECT 


WIRENTHORODOEUSSAR. 所 有 删除 或 重新 格 
式 化 分 区 指定 数据 都 会 丢失 。 


返回 (b) PASABA (W) 


图 2.29 
(31) 选择 Minimal， 然 后 单 击 “ 下 一 步 ” 按 钮 。 这 里 安装 的 是 纯 命令 行 版 ， 也 可 以 选 
FF Desktop 或 者 Minimal Desktop 安装 桌面 版 ， 如 图 2.30 所 示 。 
|] 


CentOS MURERE. ONETO- 


O Desktop 
© Minimal Desktop 


O Basic Server 
O Database Server 

O Web Server 

O Virtual Host 

(O Software Development Workstation 


WOSPERMSEENRNIUAR. 
[2] Centos 


+ o mme | Bas w 


或 者 . 
© MEAL) O REAR (O) 


图 2.30 


安装 332 个 软件 包 ， 如 图 2.31 所 示 。 


$ 


Community ENTerprise Operating System 


@ 已 完成 的 软件 包 : 12/332 


安装 glibc-common-2.12-1.107.el6.x86_64 (107 MB) 
Common binaries and locale data for glibc 


图 2.31 


(33) 单 击 “ 重 新 引导 ”按钮 ， 完 成 安装 ， 如 图 2.32 所 示 。 


RAT, WH CentOS 安装 已 经 完成 。 


bd 请 重 后 以 便 使 用 安装 的 系统 。 请 注意 : 可 使 用 更 新 以 确定 您 的 系统 正常 工作 ， 且 建议 在 重 
局 后 安装 这 些 更 新 。 


anas w | 


图 232 


(34) 测试 安装 是 否 成 功 。 输 入 用 户 root 和 用 户 密码 ， 如 果 能 进入 如 图 2.33 所 示 的 界 


面 ， 则 说 明 安装 成 功 。 
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CentOS 
Kernel 2.6.3 16 64 on an x86 64 


loca Iho: n: root 
Password 
[root@localhost ~1# _ 


[root@localhost ~]# 

e root: 登录 到 Linux 系统 的 用 户 名 。 

* localhost: 完 的 主机 名 。 

。 ~: root 用 户 所 在 的 位 置 ,“ 一 ”表示 root 的 家 目录 ，root 家 目录 实际 路 径 是 /root。 


2.2 基本 命令 


关于 基本 命令 的 讲解 视频 可 扫描 二 维 码 观看 。 
221 cd 命令 


cd 命令 是 在 Linux 系统 中 用 得 比较 频繁 的 命令 ， 因 此 可 以 使 用 cd 命令 

在 不 同 的 目录 中 切换 。 就 像 是 在 Windows 系统 中 操作 前 进 、 后 退 和 目录 树 

- 样 ， 在 Windows 中 是 通过 单 击 的 方式 来 实现 的 ， 在 Linux 中 是 通过 命令 

输入 的 方式 来 实现 的 。 可 以 通过 执行 cd 命令 加 路 径 的 方式 ， 按 Enter 键 实 
现 切 换 目 录 的 操作 。 


cd [相对 路 径 / 绝 对 路 径 ] 


示例 如 下 : 
(1) 进入 用 户主 目录 (家 目录 )。 


[root@locahost ~] # cd 
[root@locahost 一 ] # cd 一 


(2) 返回 进入 此 目录 之 前 所 在 的 目录 。 


[root@locahost ~] # cd - 


(3) 返回 上 级 目录 。 


[root@locahost ~] # cd .. 


(4) 返回 上 两 组 目录 〈 可 以 类 推 )。 
[root@locahost ~] # cd ../.. 

(5) 把 上 个 命令 的 参数 作为 cd 参数 使 用 。 
[root@locahost ~] # cd !$ 

(6) 切换 到 根 目 录 下 的 tmp 目录 。 


[root@locahost 一 ] # cd /tmp 


222 ”打包 和 解压 指令 


在 Windows 中 使 用 最 多 的 压缩 文件 就 是 .rar 格式 , 但 在 Linux F, rar 格式 并 不 能 被 识 
别 ,因为 Linux 有 特有 的 压缩 工具 。 有 一 种 格式 在 Windows il Linux 下 都 能 使 用 , 那 就 是 .zip 
格式 的 文件 。 本 节 将 学 习 在 Linux 环境 下 各 种 文件 的 打包 和 解压 的 方法 。 

在 Linux 下 最 常见 的 压缩 文件 通常 是 以 .tar 和 .gz 结尾 的 ， 除 此 之 外 还 有 .bz2、.zip 等 。 
在 Linux 系统 中 ,文件 可 以 不 附带 后 级 名 ， 但 是 压缩 文件 必须 带 后 缀 名 ， 这 是 为 了 判断 压 


缩 文件 是 由 哪 种 压缩 工具 压缩 的 ， 而 后 才能 正确 地 解压 这 个 文件 。 以 下 介绍 常见 的 后 级 名 
所 对 应 的 压缩 工具 。 


。 gz: gzip 压缩 工具 压缩 的 文件 。 
-bz2: bzip2 压缩 工具 压缩 的 文件 。 
dar: tar 打包 程序 打包 的 文件 Ctar 并 没有 压缩 功能 ， 只 是 把 一 个 目录 合并 成 一 个 文件 )。 
.tar.gz: 将 打包 过 程 分 为 两 步 执行 ， 即 先 用 tar 打包 ， 再 用 gzip 压缩 。 
-tarbz2: 过 程 同 上 ， 先 用 tar 打包 ， 再 用 bz2 压缩 。 

1. gzip 命令 

gzip 命令 是 应 用 最 广泛 的 压缩 命令 , gzip 可 以 解压 zip 5 gzip 软件 压缩 的 文件 ,而 gzip 
创建 的 压缩 文件 后 级 名 为 gz gz), Fi gzip 解压 或 压缩 都 会 将 源 文件 删除 。gzip 语 
法 如 下 。 

语法 : 

gzip [参数 ] [文件 ] 


参数 : 

-d: 解压 。 

-# 压缩 等 级 (# 取 值 范 围 为 1~9, 其 中 1 为 压缩 最 差 , 9 为 压缩 最 好 ,6 为 默认 等 级 )。 

示例 如 下 : 

(1) 将 bunfly 文件 压缩 成 扩展 名 为 .gz 的 文件 。 将 bunfly 文件 压缩 后 ， 是 对 原文 件 直 
接 进 行 操作 ， 或 者 可 以 理解 为 把 原文 件 直接 变 成 压缩 文件 。 


[root@locahost tmp]# gzip bunfly <== 压 缩 ounfly 文 件 


[root@locahost tmp]# 1s <== 查 看 解压 后 的 当前 路 径 下 的 文件 /文件 夹 
bunfly.gz <==1s 命 令 查询 的 结果 (压缩 结果 ) 
(2) 将 bunflygz 格式 的 压缩 文件 解压 。 解 压 后 ， 同 样 压缩 文件 将 直接 变 成 解压 后 的 d 
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文件 。 
[root@locahost tmp]# gzip -d bunfly.gz <== 解 压 punfly.gz 压 缩 包 
[root@locahost tmp]# ls <== 查 看 解压 后 的 当前 路 径 下 的 文件 /文件 夹 
bunfly <==1s 命 令 查 询 的 结果 (解压 结果 ) 


(3) gzip 命令 不 可 以 压缩 目录 。 先 创建 一 个 FileDirectory 目录 ， 并 使 用 gzip FileDirectory 
命令 对 FileDirectory 目录 进行 压缩 ， 此 时 gzip 命令 会 弹出 一 个 提示 “FileDirectory 文件 是 
一 个 目录 ”。 通 过 ls 命令 查看 ， 发 现 刚 刚 的 压缩 操作 并 没有 执行 成 功 。 


[root@locahost tmp]# mkdir -p etc/ <== 创 建 名 为 etc 的 文件 夹 


[root@locahost tmp]# 1s <== 查 看 当前 目录 下 的 所 有 文件 /文件 夹 
etc bunfly <==1s 命 令 查询 的 结果 
[root@locahost tmp]# gzip etc <== 压 缩 etc 文 件 夹 


gzip: etc/ is a directory - ignored<==gzip 命 令 执行 结果 ， 表 示 不 能 压缩 文件 夹 


2. bzip2 命令 

bzip2 是 用 于 代替 gzip 并 能 提供 更 好 的 压缩 功能 ,bzip2 的 用 法 与 gzip 几乎 相同 , 但 压 
缩 文件 的 后 级 是 bz2( 即 *.bz2)， 即 为 不 可 以 解压 /压缩 文件 夹 。 用 bzip2 解压 或 压缩 会 删除 
源 文件 ， 与 gzip 一 样 。 用 法 介绍 如 下 。 

语法 : 

bzip2 [参数 ] [文件 ] 


选项 或 参数 ， 

e -d: 解压 。 

。 -Zz: 压缩 。 

示例 如 下 : 

(1) 用 bzip2 命令 打包 。 可 以 用 “bzip2 -z bunfly” 命 令 对 bunfly 文件 进行 压缩 。-z 是 
压缩 的 参数 ， 这 个 参数 是 可 以 省 略 的 。 例 如 “bzip2 bunfly” 命 令 ， 默 认 情 况 下 等 于 “bzip2 
-z bunfly”. 

[root@locahost tmp]# bzip2 -z bunfly ”<== 压 缩 bunfly 文 件 ， 且 删除 bunfly 文 件 


[root@locahost tmp]# ls <== 查 看 当前 目录 下 的 所 有 文件 /文件 夹 
bunfly.bz2 <==15 命 令 查询 的 结果 (压缩 结果 ) 


(2) 用 bzip2 命令 解压 。bzip2 命令 加 上 -d 参数 后 ， 压 缩 命令 就 成 为 解压 命令 。 


[root@locahost tmp]# bzip2 -d bunfly.bz2 ”<== 解 压 bunf1y.bz2 文 件 并 删除 


[root@locahost tmp]# 1s <== 查 看 当前 目录 下 的 所 有 文件 /文件 夹 
bunfly <==1s 命 令 查询 的 结果 (解压 结果 ) 
3. tar 命令 


gzip. bzip2 不 能 压缩 文件 夹 ， 但 tar 命令 可 解压 或 压缩 gzip、bzip2 等 软件 的 文件 ，tar 
可 以 解压 或 压缩 文件 夹 (多 层 文件 结构 )， 压 缩 文件 的 后 缀 名 为 gz、bz2 等 。tar 解压 或 压 
缩 后 ， 不 会 删除 源 文件 ， 用 法 如 下 。 


语法 : 
tar [参数 ] [压缩 文件 ] [打包 文件 ] 


参数 : 
e -z 是 否 同时 用 gzip 压缩 。 
e j: 是 否 同时 用 bzip2 压缩 。 


且 面 的 文件 。 


E 
KING 

5: 
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。 -f: 如 果 压 缩 时 加 上 -f 参数 ， 则 表示 压缩 后 的 文件 为 filename; 如 果 解 压 时 加 上 -f 
参数 ， 则 表示 解压 filename 文件 ， 如 果 是 多 个 参数 组 合 的 情况 下 带 有 -f， 则 需要 把 
f 写 到 最 后 。 

示例 如 下 。 

(1) 用 tar 命令 压缩 bunfly 文件 。 TERE: 使 用 tar 命令 打包 或 解压 ， 原 来 的 文件 是 不 会 

被 删除 的 。 
[root@locahost tmp]# tar -cvf bunfly.tar bunfly 
<== 将 bunfly 文 件 压缩 成 punfly.tar 


[root@locahost tmp]# 1s <== 查 看 当前 目录 下 的 所 有 内 容 
bunfly bunfly.tar <== 查 看 当前 目录 的 结果 


(2) H tar 命令 压缩 bunfly.tar 文件 。 用 tar 解压 后 的 文件 名 是 压缩 前 的 文件 名 , 为 了 看 
出 效果 ， 这 里 执行 了 一 步 mm 删除 bunfly 文件 的 步骤 。 


[root@locahost tmp]# rm -rf bunfly <== 删 除 当前 目录 中 的 bunfly 文 件 
[root@locahost tmp]# 1s <== 查 看 当前 目录 下 的 所 有 内 容 
bunfly.tar <== 查 看 当前 目录 的 结果 
[root@locahost tmp]# tar -xvf bunfly.tar <== 解 压 bpunfly.tar 压 缩 包 
[root@locahost tmp]# 1s <== 查 看 当前 目录 下 的 所 有 内 容 
bunfly bunfly.tar <== 查 看 当前 目录 的 结果 


2.2.3 其 他 常用 命令 


1. Is 命令 

ls 命令 是 list 的 缩写 ，list 字面 意思 是 “ 列 出 ” 所 以 ls 命令 与 字面 意思 一 样 ， 作 用 是 
列 出 文件 夹 内 所 有 文件 和 指定 文件 夹 内 的 所 有 文件 。 

语法 : 


ls [参数 ] [目录 名 称 ] 


参数 : 
。 -a: 列 出 全 部 的 文件 ， 包 括 隐藏 文件 (开头 为 . 的 文件 )( 常 用 )。 


«d: 列 出 文件 的 属性 、 权 限 等 (常用 )。 * 
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e -n: 列 出 UID、GID， 而 非 用 户 和 用 户 组 的 名 称 。 

* -S: 以 文件 大 小 排序 。 

e -t: 以 时 间 排 序 。 

示例 如 下 : 

COD ls 未 加 目录 名 称 ， 则 表示 列 出 当前 目录 下 的 所 有 文件 ， 但 隐藏 文件 不 会 列 出 。 


[root@locahost 一 ] # ls 
anaconda-ks.cfg install.log install.log.syslog 
[root@locahost 一 ] # 


(2) 列 出 当前 目录 下 的 所 有 文件 及 其 属性 ， 包 括 隐藏 文件 。 


[root@locahost ~] # ls -al 

总 用 量 76 

dr-xr-x---. 4 root root 4096 12H 27 00:17 . 

dr-xr-xr-x. 23 root root 4096 12H 26 17:40 .. 

-一 一 一 一 . 1 root root 1098 12H 6 18:09 anaconda-ks.cfg 


-rw-r--r--. 1 root root 9458 12H 6 18:09 install.log 
-rw-r--r--. 1 root root 3091 12 月 6 18:07 install.log.syslog 
rootélocahost —] # 


(3) 查看 指定 目录 /tmp 下 的 所 有 文件 。 


root@locahost ~] # ls /tmp 
bunfly yum.log 
root@locahost ~] # 


(4) 查看 指定 目录 /tmp 下 的 所 有 文件 、 属 性 及 权限 等 。 


root@locahost 一 ] # 1s -al /tmp 

总 用 量 192 

drwxrwxrwt. 7 root root 4096 12H 26 22:49 . 
dr-xr-xr-x. 23 root root 4096 12H 26 17:40 .. 


Erw-r-—r— 1l root | root 0 12H 25 18:06 bunfly 
Eee a 1 rooe root 0 12Ħ 6 18:05 yum.log 

(5) ls -1 命令 可 以 简化 成 1， 查 看 指定 目录 下 所 有 文件 的 详细 信息 。 
[root@locahost ~] # 11 <== 查 看 当前 目录 下 文件 的 属性 、 权 限 等 
总 用 量 3 

aaa . 1 root root 1098 12H 6 18:09 anaconda-ks.cfg 


-rw-r--r--. 1 root root 9458 12H 6 18:09 install.log 
-rw-r--r--. 1 root root 3091 12H 6 18:07 install.log.syslog 
[root@locahost —] # ls -1 <== 查 看 当前 目录 下 文件 的 属性 、 权 限 等 
总 用 量 3 

EC ee . 1 root root 1098 12H 6 18:09 anaconda-ks.cfg 


-rw-r--r--. 1 root root 9458 12H 6 18:09 install.log 
-rw-r--r--. 1 root root 3091 12H 6 18:07 install.log.syslog 


2. pwd 命令 

Linux 中 pwd 命令 是 Print Working Diredctory 的 缩写 ， 其 功能 是 打印 当前 的 工作 目录 ， 
因此 在 Linux 中 可 以 用 pwd 命令 来 查看 当前 工作 目录 的 完整 路 径 。 在 终端 进行 操作 时 ， 总 
会 有 一 个 当前 工作 目录 ， 在 不 太 确 定 当前 位 置 时 ， 可 以 使 用 pwd 来 判定 当前 目录 在 文件 系 
统 内 的 确切 位 置 。 简 单 来 说 ， 也 就 可 理解 为 pwd 命令 就 是 显示 当前 所 在 的 目录 或 路 径 。 

语法 : 

pwd [参数 


235 
p: 显示 出 实现 路 径 ， 而 非 使 用 连接 路 径 。 
示例 如 下 : 


[root@locahost ~] # pwd <== 打 印 / 显 示 当 前 路 径 
/root <== 显示 出 目录 ，/root 表 示 根 目录 


3. touch 命令 

touch 命令 有 两 个 功能 : 一 是 用 于 把 已 存在 文件 的 时 间 标 签 更 新 为 系统 当前 时 间 (默认 
方法 )， 将 它们 的 数据 原封 不 动 地 保留 下 来 ; 二 是 用 来 创建 新 的 空 文件 。 

语法 : 


touch [参数 ] [参考 文件 ] [文件 名 ] 


。 ar: 把 指定 文件 或 目录 的 日 期 时 间 统 统 设置 为 和 参考 文件 或 目录 的 日 期 时 间 相 同 。 
e t: 使 用 指定 的 日 期 时 间 ， 而 非 现在 的 时 间 。 
示例 如 下 : 在 root 目录 下 建立 一 个 空 文件 ex2， 利 用 1 命令 可 以 发 现 文件 ex2 大 小 为 
0， 表 示 它 是 空 文件 。 


[root@locahost ~] # touch ex2 <== 创 建 ex2 文 件 
[root@locahost 一 ] # 11 <==11 命 令 查 看 ex2 文 件 大 小 
总 用 量 0 


-rw-r--r--. 1 root root 0 12 月 25 19:03 ex2 
[root@locahost ~] # 


4. In 命令 

In 命令 在 Linux 中 是 一 个 非常 重要 的 命令 ， 它 的 功能 是 为 某 个 文件 在 另 一 个 位 置 建 立 
一 个 同步 的 链接 。 这 个 链接 又 分 为 软件 链接 和 硬 链接 ， 通 过 加 参数 -s 区 分 。 当 加 上 -s 参数 
时 创建 一 个 软件 链接 ， 如 果 不 加 -s 参数 ， 则 创建 出 来 的 链接 是 硬 链 接 。 


语法 : 
第 
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选项 或 参数 : 

-S: 创建 软件 链接 。 

示例 如 下 : 

(1) 创建 文件 /etc/issue 的 软 链接 issue.soft。 


[root@locahost tmp] # ln -s /etc/issue /issue.soft 


(2) 创建 文件 /etc/issue 的 硬 链 接 issue.soft. 


[root@locahost tmp] # ln /etc/issue /issue.soft 


5. cp 命令 

cp 命令 是 copy 的 简称 ，copy 字面 意思 是 “复制 ?>， 所 以 cp 命令 的 作用 是 复制 文件 命 
令 ， 不 仅 可 以 复制 文件 ， 还 可 以 创建 连接 文件 〈 类 似 快 捷 方 式 )。cp 命令 的 参数 选项 可 以 
不 设置 ， 源 文件 也 可 以 有 多 个 ， 并 以 空格 隔 开 。 

语法 : 

cp [参数 ] [ 源 文 件 ] [目标 文件 ] 


参数 : 

o l: 进行 硬 链接 的 连接 文件 的 创建 /复制 ， 而 非 复 制 文件 本 身 。 

递归 复制 ， 用 于 复制 目录 。 

: 复制 成 “快捷 方式 ”文件 。 

: 如 果 目 标 文件 比 源 文件 旧 ， 则 更 新 目标 文件 。 

示例 如 下 : 

(1) 复制 /root 目录 下 的 .bashrc 文件 到 /tmp 目录 下 ， 并 重 命名 为 bashrc 文件 。 


1 
a 


£ 


[root@locahost ~]# cp 一 /.bashrc /tmp/bashrc 
(2) 复制 文件 属性 以 及 文件 。 


[root@locahost ~]# cp -a /var/log/tmp 1 tmp 2 <== 复 制 文件 及 其 属性 
[root@locahost ~]# ls -l /var/log/tmp 1 tmp 2 <== 查 看 两 个 文件 属性 
-rw-rw-r-- 1 root root 96384 Sep 11 12:00 /var/log/tmp 1 

-rw-rw-r-- 1 root root 96384 Sep 11 12:00 tmp 2 


(3) 复制 多 个 文件 到 目录 。 
[root@locahost ~]# cp -a tmp 1 tmp 2 tmp 3 /tmp <== 复 制 多 个 文件 到 /tmp 目 录 


6. mv 命令 

mv 命令 是 move 的 简称 ，move 字面 意思 是 “移动 ” 所 以 mv 命令 的 作用 就 是 移动 文 
件 ， 使 用 mv 命令 可 以 移动 文件 与 目录 ， 或 重 命名 。myv 命令 的 参数 可 以 不 设置 ， 源 文件 也 
可 以 有 多 个 ， 并 以 空格 隔 开 。 

语法 : 


mv [参数 ] [ 源 文 件 ] [目标 文件 ] 


BR: 

。 -& f 参 数 表示 强制 执行 ， 例 如 文件 已 存在 ， 不 询问 就 可 以 执行 覆盖 等 。 
。 -i: 如 目标 文件 存在 ， 需 要 询问 才 可 以 覆盖 (i 为 默认 参数 )。 

示例 如 下 : 将 /tmp 目录 下 的 Hello 文件 移动 到 /root 目录 。 


[root@locahost ~]# mv /tmp/Hello /root 


7. rm 命令 

rm 命令 是 remove 的 简称 ，remove 的 字面 意思 是 “删除 ” 所 以 rm 命令 的 作用 是 删除 
文件 ， 可 以 删除 文件 或 目录 。 

iE: 

rm [参数 ] [文件 或 目录 ] 

参数 设置 : 

o f: 强制 执行 ， 忽 略 不 存在 、 警 告 等 信息 。 

e r: 递归 删除 ， 常 用 于 目录 的 删除 。 


示例 如 下 : 

(1) 删除 /tmp 目录 下 的 多 个 文件 。 

[root@locahost ~]# cd /tmp <== 进 入 /tmp 目 录 

[root@locahost tmp]# 1s <== 列 出 当前 目录 下 的 所 有 文件 /文件 夹 
Test1 Test2 <== 列 出 的 文件 /文件 夹 
[root@locahost tmp]# rm Testl Test2 <== 删 除 Test1、Test2 

rm: 是 否 删除 普通 文件 “Test1”?yY <==y 表 示 “ 是 ”n 表 示 “ 否 ” 

rm: 是 否 删除 普通 文件 “Test2”?y <==y 表 示 “ 是 ”n 表 示 “ 否 ” 

(2) 删除 /tmp 目录 下 的 etc 文件 夹 。 

[root@locahost tmp]# rm ./etc <== 删 除 当 前 目录 下 的 etc， 会 出 现 如 下 提示 
rm: 无 法 删除 " ./etc" : 是 一 个 目录 

[root@locahost tmp]# rm -r ./etc <== 在 rm 命令 后 ， 加 -r 参 数 即 可 

rm: 是 否 删除 目录 " ./etc"?y <== 输 入 y 即 可 

8. cat 命令 


cat 命令 是 concatenate 的 简称 ， 用 于 显示 指定 文件 内 容 的 命令 ， 同 时 查看 文件 内 容 的 
命令 还 有 tac. nl 等 ,但 tac 命令 与 cat 命令 是 相反 的 ， 因 为 cat 命令 是 从 文件 的 第 一 行 开始 
显示 ， 而 tac 命令 是 从 文件 的 最 后 一 行 开 始 显示 。 
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e b: 列 出 行 号 ， 但 空白 行 不 显示 当前 的 行 号 。 

e -A: 将 结尾 的 断 行 符 $ 显 示 出 来 。 

em: 列 出 行 号 ， 且 空白 行 的 行 号 也 会 显示 出 来 。 


示例 如 下 : 第 
(1) 查看 /tmp/Hello 文件 内 容 。 2 
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root@locahost ~]# cat /tmp/Hello <== 查 看 /tmp 目 录 中 的 Hel11o 文 件 内容 
hello bunfly <== “hello bunfly” 为 Hel1o 文 件 内 容 


(2) 查看 /tmp/Hello 文件 内 容 以 -n 参数 显示 。 


root@locahost ~]# cat -n /tmp/Hello <== 查 看 /tmp 目 录 中 的 Hel1o 文 件 内 容 
1 hello bunfly < 一 显示 文件 内 容 并 将 行 号 显示 出 来 


(3) 查看 /tmp/Hello 文件 内 容 以 -n 参数 显示 。 


root@locahost 一 ]# cat -A /tmp/Hello <== 将 文件 的 特殊 字符 显示 出 来 
hello bunfly$ <== 将 结尾 断 行 符 $ 显 示 出 来 
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关于 权限 与 目录 命令 的 讲解 视频 可 扫描 二 维 码 观看 。 
2.3.1 权限 


Linux 中 一 切 设备 皆 文 件 ， 而 所 有 文件 都 是 有 权限 的 ， 查 看 文件 权限 等 详细 信息 可 以 
使 用 1s -1 命令 。 

示例 如 下 : 查看 /tmp 目录 下 所 有 文件 /文件 夹 的 详细 信息 。 

[root@locahost tmp]# 1s -1 <== 查 看 当前 目录 下 所 有 文件 的 详细 信息 

总 用 量 12 


-rw-r--r--. 1 root root 0 12H 24 19:57 2 
-rw-r--r--. 1 root root 10240 12H 24 22:24 2.tar 


如 上 例 所 示 ， 我 们 通过 22.3 节 了 解 到 ls 命令 返回 的 结果 中 列 出 的 第 一 列 信息 尤其 重 
要 ， 类 似 于 “-rw-------”， 这 里 的 “-rw------- ”表示 用 户 对 文件 可 操作 的 权限 。 权 限 分 为 4 
组 ， 如 图 2.34 所 示 。 


文件 类 型 其 他 用 户 
当前 用 户 
图 2.34 
第 一 组 “-” 代 表 这 个 文件 是 一 个 普通 文件 。“d” 代 表 这 个 文件 是 一 个 目录 。“In” 代 
表 这 个 文件 是 一 个 软 链 接 文件 。 

第 二 组 “rw-” 代 表 当 前 用 户 对 这 个 文件 只 有 “ 读 ” 和 “ 写 ” 的 操作 权限 。 
第 三 组 “---” 代 表 组 用 户 对 这 个 文件 没有 任何 权限 。 
第 四 组 “---” 代 表 其 他 用 户 对 这 个 文件 没有 任何 权限 。 
第 一 组 .第 二 组 和 第 三 组 以 三 个 字母 为 一 组 出 现 ,这 三 个 字母 分 别 是 r(read)、w(write)、 


x (execute)， 因 此 rwx 三 个 字母 顺序 是 固定 的 ，r 代表 这 个 文件 可 读 ，w 代表 这 个 文件 可 写 ， 
x 代表 这 个 文件 可 以 执行 。 如 果 不 给 这 个 文件 赋 权 限 ， 只 需要 在 对 应 位 置 用 “-” 代 替 即 可 。 
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Linux 的 文件 路 径 都 带 有 一 个 /,， 这 条 斜 杠 单 独 出 现时 称 为 根 目录 , 所 有 文件 和 目录 都 
存放 在 根 目录 之 下 ， 可 以 用 ls /命令 进行 查看 : 


root@locahost 一 ]# ls / <== 查 看 根 目录 下 所 有 文件 /文件 夹 
bin dev home lib64 media opt root selinuxsys usr 
boot etc Iib lost+found mnt proc sbin srv tmp var 


root@locahost ~] # 


ls /usr/src 里 面 的 / 是 分 隔 分 层 的 意思 ， 即 显示 usr 目录 中 的 sre 目录 中 的 所 有 文件 及 
Har. HA / 单独 出 现时 才 代表 根 目 录 ， 如 下 : 
root@locahost ~]# 1s /usr/src <== 查 看 /usr/src 目 录 下 所 有 文件 /文件 夹 


debug kernels <== 查 看 /usr/src 目 录 下 所 有 文件 /文件 夹 结果 
root@locahost ~]# 


Linux 的 目录 结构 比较 简单 ， 一 般 在 ete 目录 下 的 文件 是 配置 文件 ， 在 bin 下 的 文件 是 
二 进 制 可 执行 文件 ， 在 lib 下 的 文件 是 一 些 应 用 库 文件 。 

每 一 个 登录 系统 的 使 用 者 都 会 有 一 个 家 目录 ， 默 认 是 在 /home 文件 夹 下 ， 并 以 使 用 者 
用 户 名 命名 的 文件 夹 。 这 个 目录 属于 使 用 者 的 家 目录 ， 可 以 在 里 面 任意 操作 ， 并 不 会 对 整 
个 系统 产 成 破坏 性 影响 。 但 如 果 是 root 用 户 ， 家 目录 默认 是 /root， 操 作 时 就 要 谨慎 。 因 为 
root 的 权限 很 大 ， 它 可 以 忽略 任何 限制 ， 如 果 操作 不 当 可 能 会 对 系统 造成 破坏 。 

表 2.1 是 根 目录 内 的 主要 目录 说 明 。 


表 2.1 
目录 应 放置 档案 内 容 
/bin 在 /bin 下 的 指令 可 以 被 root 或 普通 用 户 使 用 ,主要 有 cat, chmod, chown, date, mv, mkdir, 


ep. bash 等 常用 的 指令 

/boot 主要 放置 引导 加 载 程序 相关 的 文件 ， 包 括 Linux 核心 文件 以 及 开机 选单 与 开机 所 需 设 定 档案 等 

/dev 在 Linux 系统 上 ， 任 何 装置 与 设备 都 是 以 文件 的 形态 存在 于 这 个 目录 当中 。 只 要 通过 存 取 这 
个 目录 下 的 某 个 文件 ， 就 等 于 存 取 某 个 装置 。 这 些 包 括 终 端 设备 、USB 或 连接 到 系统 的 任 
何 设备 。 例 如 /dev/ttyl、/dev/usbmon0 

lete 包含 所 有 程序 所 需 的 配置 文件 ， 也 包含 了 用 于 启动 /停止 单个 程序 的 启动 和 关闭 shell 脚本 。 
例如 /etc/resolv.conf、/etc/logrotate.conf 

/home 所 有 用 户 用 home 目录 来 存储 他 们 的 个 人 档案 。 例 如 /home/hadoopuser、/home/otheruser 

/lib /lib 是 用 来 放置 在 开机 时 会 用 到 的 函数 库 ， 以 及 在 /bin 或 /sbin 下 的 指令 会 呼叫 的 函数 库 

/media ”用 于 挂 载 可 移动 设备 的 临时 目录 。 例 如 挂 载 CD-ROM 的 /media/cdrom， 挂 载 软盘 驱动 器 的 
/media/floppy 

/mnt 临时 安装 目录 ， 系 统管 理 员 可 以 挂 载 文 件 系统 

/root 系统 管理 员 的 家 目录 

/sbin Linux 有 非常 多 指令 是 用 来 设 定 系 统 环境 的 ， 这 些 指令 只 有 root 用 户 才能 用 来 设 定 系 统 ， 其 
他 用 户 最 多 只 能 用 来 查询 而 已 。 放 在 /sbin 下 的 为 开机 过 程 所 需要 的 ， 包 括 开 机 、 修 复 、 还 


原 系统 所 需要 的 指令 
/tmp 包含 系统 和 用 户 创建 的 临时 文件 。 这 个 目录 是 任何 人 都 能 够 存 取 的 ， 所 以 需要 定期 清理 
/usr Aust 是 Linux 操作 系统 软件 资源 所 放置 的 目录 2 
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2.4 文件 操作 


关于 文件 操作 命令 的 讲解 视频 可 扫描 二 维 码 观看 。 
2.4.1 文件 与 目录 管理 


在 Linux 系统 下 ， 一 切 皆 文件 。 因 此 ， 使 用 光盘 首先 要 建立 一 个 目录 文件 ， 然 后 通过 
操作 这 个 目录 来 操作 光盘 ， 连 同 鼠 标 、 键 盘 都 被 看 作文 件 。 文 件 的 类 型 主要 分 为 5 类: 普 
通 文件 、 目 录 文 件 、 设 备 文件 、 链 接 文件 、 管 道 文件 。 其 中 ， 前 三 个 都 是 基本 的 文件 。 

普通 文件 : 文本 文件 、 二 进 制 文 件 。 文 本 文件 以 ASCII 码 形式 存储 ， 人 类 能 够 读 懂 ， 
可 以 编辑 修改 ;二进制 文件 是 以 二 进 制 存储 的 ， 要 借助 一 定 的 软件 工具 才 可 以 看 懂 ， 一 般 
是 声音 、 图 像 、 可 执行 程序 。 

设备 文件 :把 每 一 个 VO 看 作 一 个 设备 文件 ， 即 把 IO 看 作 普 通 的 文件 进行 写 入 和 读 
取 操 作 。 用 户 不 必 了 解 设备 的 细节 ， 对 设备 的 使 用 就 像 操作 文件 一 样 。 设 备 文件 又 分 为 块 
设备 和 点 设备 ， 块 设备 指 硬盘 光驱 之 类 的 以 字符 串 为 单位 存 取 的 。 点 设备 指 键盘 鼠标 之 类 
的 以 单个 字符 为 单位 存 取 的 。 每 一 个 设备 对 应 一 个 设备 文件 ， 存 放 在 /dev 目录 中 。 

链接 文件 :分 为 软 链接 和 硬 链接 。 软 链接 其 实 是 给 文件 指定 的 别名 ， 可 以 理解 为 
Windows 系统 中 的 快捷 方式 。 硬 链接 与 软 链接 基本 相同 ， 都 是 为 了 解决 文件 的 共享 使 用 
同时 带 来 隐藏 文件 路 径 、 增 加 权限 安全 及 节省 存储 等 好 处 。 

那么 要 怎么 区 分 这 些 文件 呢 ? 这 时 可 以 用 11 命令 来 查看 打印 文件 的 详细 信息 ， 每 一 行 
的 第 一 个 字段 中 的 第 一 个 字符 代表 的 就 是 这 个 文件 的 类 型 。 如 下 : 

-: 普通 文件 。 

d: 目录 。 

1: 连接 文件 。 
b: 块 设备 文件 。 
C 

S 

p 


: 字符 设备 文件 。 
: 套 接口 文件 。 
: 管道 。 
.绝对 路 径 与 相对 路 径 
1E Linux 中 什么 是 一 个 文件 的 路 径 呢 ? 所 谓 文件 的 路 径 ， 就 是 文件 存在 的 地 址 。 如 同 
快递 寄 送 东西 需要 寄 件 地 址 ， 这 个 地 址 在 Linux 文件 中 就 是 它 的 路 径 。 例 如 
/root/mfkddd/file, file 是 一 个 文件 ， 它 的 路 径 就 是 /root/mfkddd。 在 Linux 中 ， 路 径 又 分 为 
绝对 路 径 和 相对 路 径 两 种 。 
绝对 路 径 : 路 径 的 写法 一 定 是 由 根 目 录 / 开始 。 例 如 cat /root/mfkddd/file。 这 条 语句 
的 意思 是 查看 file 文件 中 的 内 容 ，cat 后 面 跟 的 是 绝对 路 径 。 
相对 路 径 : 路 径 的 写法 不 是 由 根 目录 开始 的 。 例 如 ， 假 如 进入 到 mfkddd 目录 ， 可 以 
用 cat file 这 个 命令 直接 查看 file 文件 中 的 内 容 ， 这 里 的 cat 后 面 跟 的 file 文件 相对 mfkddd 
而 言 就 是 相对 路 径 。 


. 
. 
. 
. 
. 
. 
. 
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2. 操作 目录 的 相关 命令 
1) linux 系统 中 常见 的 特殊 目录 《〈 见 表 2.2) 
* 22 
符号 说 明 
代表 当前 目录 
代表 上 一 层 目录 
- 代表 前 一 个 工作 目录 
e 代表 当前 用 户 的 家 目录 (家 目录 又 称 为 home AR) 
一 account 代表 account 这 个 用 户 的 家 目录 


每 个 目录 下 都 有 两 个 目录 :“.” 和 “..”， 分 别 代 表 当 前 目录 和 上 层 目录 。 在 根 目录 下 
使 用 ls -a 命令 去 查询 ， 可 以 看 到 根 目 录 下 存在 “.” 和 “..” 两 个 目录 ， 这 两 个 目录 的 属性 
和 权限 完全 一 致 ， 这 说 明 根 目录 的 “.” 和 “..” 是 同一 个 目录 ， 如 表 2.2 所 示 。 

2) 常用 操作 目录 的 命令 

(1) ed: 切换 目录 。 


[root@locahost 一 ]# cd /tmp <== 切 换 到 /tmp 目 录 中 
[root@locahost tmp]# <== 由 此 可 知 ， 此 目录 为 tmp 


如 上 操作 ，cd 命令 是 切换 命令 , cd 后 面 跟 的 tmp 是 相对 路 径 ，cd tmp 命令 的 意思 是 从 
当前 目录 切换 到 tmp 目录 。 这 里 使 用 的 是 tmp 的 相对 路 径 ， 使 用 相对 路 径 的 前 提 是 目标 目 
录 必 须 事先 存在 。 

如 果 只 输入 cd 或 者 cd 一 ， 代 表 回 到 使 用 者 的 家 目录 。 输 入 cd -代表 回 到 上 一 个 工作 
目录 。 输 入 cd /root/mfkddd 代表 进入 mfkddd 目录 ， 这 里 cd 后 面 跟 的 是 绝对 路 径 ， 所 以 在 
任何 目录 下 输入 cd /root/mfkddd 命令 都 可 以 进入 mfkddd 目录 。 

(2) pwd: 显示 当前 目录 的 路 径 。 

例如 ， 先 在 root 目录 下 创建 一 个 mfkddd 目录 ， 并 在 里 面 创建 一 个 fle 文件 。 


[root@localhost /]# cd /root <== 首 先进 入 root 目 录 
[root@localhost root]# mkdir mfkddd <== 创 建 目录 

[root@localhost root]# cd /root/mfkddd 22-4 Nmf kada H3 
[root@localhost mfkddd]# vi file <== 创 建文 件 并 进入 文件 


创建 文件 时 在 文件 中 输入 想 输入 的 内 容 ， 如 “www.bunfly.com”， 按 Esc 键 后 输入 
“:wq”， 保 存 并 退出 。 

做 好 所 有 准备 后 ， 可 以 使 用 pwd 命令 来 查询 文件 路 径 了 。 在 mfkddd 目录 下 输入 pwd 
命令 ， 打 印 出 来 的 rootmfkddd 路 径 是 mfkddd 目录 的 绝对 路 径 ， 如 下 : 


[root@locahost mfkddd]# pwd 
/root/mfkddd 


(3) mkdir: 建立 一 个 新 的 目录 。 
mkdir 命令 后 面 可 以 选择 m 或 p 参数 。m 表示 可 以 给 创建 的 目录 设置 权限 ，p 表示 可 
以 创建 多 级 目录 。 2 
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如 果 没 有 加 p 参数 创建 多 级 目录 , 终端 将 会 打印 出 “没有 这 样 的 文件 或 目录 ”的 提示 ， 
因为 当前 目录 下 没有 testl 这 个 目录 ， 所 以 找 不 到 它 ， 后 面 的 test2 和 test3 自然 也 不 能 被 创建 。 
[root@locahost mfkddd]# mkdir testl/test2/test3 <== 创 建 目录 


mkdir: 无 法 创建 目录 " testl/test2/test3": 没有 那个 文件 或 目录 < 一 创建 失败 
root@locahost mfkddd]# 


为 了 解决 上 述 问题 ， 在 mkdir 后 面 加 上 一 个 参数 “-p”， 系 统 就 会 默认 地 先 创建 testl， 
然后 再 创建 test2， 最 后 创建 test3， 如 下 操作 。 


[root@locahost mfkddd]# mkdir -p testl/test2/test3 <== 创 建 多 级 目录 
[root@locahost mfkddd] # 


现在 执行 了 “mkdir -p testl/test2/test3 ”命令 ， 没 有 看 到 效果 ， 这 就 说 明 创建 成 功 ， 可 
以 通过 切换 命令 进入 test3 目录 ， 如 果 能 成 功 进入 ， 表 示 多 级 目录 创建 成 功 ， 如 下 操作 ; 


[root@locahost mfkddd]# cd testl/test2/test3 <== 切 换 目 录 
[root@locahost test3]# <== 已 切换 到 此 目录 


(4) madir: 删除 一 个 空 的 目录 。 

rmdir 命令 删除 目录 时 需要 一 层 一 层 地 进行 ,而 且 被 删除 的 目录 必须 是 空 目录 。 如 果 要 
将 目录 下 的 所 有 内 容 都 删除 ， 需 要 在 rmdir 命令 后 面 加 上 “-p” 参 数 。 

当 直 接 用 rmdir 命令 删 一 个 多 级 目录 时 ， 将 出 现 提 示 错 误 信 息 : 目录 不 为 空 。 

[root@locahost mfkddd]# rmdir testl/ <== 删 除 test1 目 录 


rmdir: 删除 "testi/" 失败 : 目录 非 空 <== 删 除 失败 
[root@locahost mfkddd] # 


为 了 解决 上 述 问 题 ， 在 rmdir 命令 后 面 加 上 参数 “-p”。rmdir 只 是 针对 目录 ， 并 且 目 

录 内 没有 其 他 文件 的 情况 使 用 。 如 果 既 要 删除 目录 又 要 删除 文件 ， 可 以 用 rm 命令 来 实现 。 
[root@locahost mfkddd]# rmdir -p testl/test2/ <== 删 除 多 层 目 录 ， 加 -p 参 数 
[root@locahost mfkddd]# 


3) 关于 执行 文件 路 径 的 变量 SPATH 

当 执行 一 个 命令 时 ， 如 ls， 系 统 会 按照 PATH 的 设 定 去 每 个 PATH 定义 的 目录 下 查找 
文件 名 为 ls 的 可 执行 文件 .如 果 在 PATH 定义 的 目录 中 含有 多 个 文件 名 为 ls 的 可 执行 文件 ， 
那么 先 查 询 到 的 同名 命令 就 先 被 执行 。 

使 用 echo SPATH 命令 可 以 查看 有 哪些 目录 被 定义 。echo 命令 的 作用 是 显示 或 打印 文 
件 内 容 ， 而 PATH 前 面 加 的 $ 表 示 后 面 接 的 是 变量 ， 所 以 会 显示 目前 的 PATH. 


[root@locahost ~]# echo SPATH 
/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin 


PATH 一 定 要 大 写 ， 这 个 变量 的 内 容 由 一 大 串 目录 组 成 ， 每 个 目录 使 用 : 分 隔 ， 每 个 
目录 有 顺序 之 分 。 无 论 是 root 还 是 其 他 用 户 都 有 /bin 或 /usr/bin 这 个 目录 在 PATH 变量 内 ， 
所 以 就 能 在 任何 地 方 执行 ls 命令 来 找到 /bin/ls 执行 文件 。 


(1) f£ PATH 当中 加 入 目录 的 方法 如 下 。 例如 在 任何 目录 均 可 执行 /root 目录 下 的 命令 ， 
那么 就 将 /root 加 入 到 PATH 当中 即 可 。 


[root@locahost ~]# PATH="${PATH:/root}" 


(2) PATH 的 特点 如 下 : 

。 不 同 身份 用 户 预 设 的 PATH 不 同 ， 预 设 能 够 随意 执行 的 指令 也 不 同 。 

。 PATH 是 可 以 修改 的 。 

o 使 用 绝对 路 径 或 相对 路 径直 接 指定 某 个 命令 的 文件 名 进行 执行 ， 会 比 查找 PATH IE 

确 性 更 高 。 

。 命令 应 该 要 放 到 正确 的 目录 下 ， 执 行 才 会 比较 方便 。 

e 本 地 目录 CO 最 好 不 要 放 到 PATH 当中 。 

3. 文件 与 日 录 管理 

1) 查看 文件 与 目录 ls 

Is 是 list 的 简称 ， 是 列 出 列表 的 意思 。ls 命令 是 列 出 文件 或 目录 中 的 所 有 文件 。 语 法 
如 下 。 


语法 : 


is [参数 ] [文件 ] 


-a: 全 部 的 文件 ， 连 同 隐藏 文件 一 起 列 出 。 

-f: 直接 列 出 结果 ， 而 不 进行 排序 。 

-R: 连同 子 目 录 的 内 容 一 起 列 出 来 ， 这 样 该 目录 下 的 所 有 内 容 都 会 显示 。 
-S: 以 文件 的 大 小 排序 ， 而 不 是 用 文件 名 排序 。 

-t: 以 文件 的 更 新 时 间 排 序 ， 而 不 是 文件 名 排序 。 

因为 常常 使 用 “-1” 这 个 参数 ， 所 以 快捷 方式 1 等 同 于 ls -1。 

示例 如 下 。 

(1) 列 出 /查看 tmp 目录 下 的 所 有 文件 /文件 夹 。 


root@locahost tmp]# 1s /tmp <== 查 看 tmp 目 录 下 的 所 有 文件 
bunfly bunfly.tar 

root@locahost tmp]# 

(2) 直接 用 1s 命令， 表示 查看 当前 目录 下 的 所 有 文件 /文件 夹 。 


root@locahost tmp]# 1s <== 查 看 当前 目录 下 的 所 有 文件 
bunfly bunfly.tar 


root@locahost tmp]# 


(3) 查看 当前 目录 下 所 有 文件 的 详细 属性 /信息 。 


root@locahost tmp]# ls -1 < 一 查看 当前 目录 下 所 有 文件 的 详细 信息 
总 用 量 16 2 
Sala L root Toot 52 12H 25 00:09 bunfly * 
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-rw-r--r--. 1 root root 10240 12H 24 22:24 bunfly.tar 
[root@locahost tmp] # 


2) 复制 、 删 除 、 移 动 : cp. rm. mv 

具体 可 参考 2.2 节 的 基本 命令 的 内 容 。 

4. 查看 文件 内 容 

D 直接 查看 文件 内 容 : cat, tac. nl 

操作 查看 命令 前 先 在 /tmp 目录 下 用 vi bunfly 命令 新 建 一 个 bunfly 文件 , 并 在 里 面 写 入 
1-3 行 的 内 容 。 操 作 如 下 : 

[root@locahost tmp]# vi bunfly <== 使 用 vi 编辑 器 打开 文件 

1 Hello bunfly 001 


2 Hello bunfly 002 
Bl www.bunfly.com 


在 2.2.3 节 中 介绍 了 cat 命令 的 使 用 ， 本 节 将 介绍 tac 命令 的 使 用 和 与 cat 命令 的 区 别 。 
CD tac 也 是 用 来 查看 文件 内 容 的 命令 , 只 不 过 tac 是 从 最 后 一 行 开 始 显示 文件 的 信 ， 
与 cat 命令 刚好 相反 。tac bunfly 命令 如 下 : 


[root@locahost tmp]# tac bunfly <== 从 最 后 一 行 开始 显示 bunfly 文 件 
3 www.bunfly.com 

2 Hello bunfly 002 

i Hello bunfly 001 

[root@locahost tmp]# 


(2) nl 命令 是 查看 命令 ， 它 与 cat BK tac 的 区 别 在 于 nl 命令 默认 带 行 号 显示 内 容 。 
语法 : 


nl [参数 ] [文件 ] 


BM: 
€ b: 指定 行 号 的 方式 ， 主 要 有 两 种 。 
* -b a: 表示 不 论 是 否 为 空 行 ， 都 同样 列 出 行 号 〈 类 似 cat -n); 
* -bt: 如 果 有 空 行 ， 空 的 那 一 行 不 列 出 行 号 〈 默 认 值 )。 
en: 列 出 行 号 表示 的 方法 ， 主 要 有 三 种 。 
* -nln: 行 号 在 屏幕 的 最 左 方 显 示 ; 
*-nm: 行 号 在 所 在 栏 的 最 右 方 显示 ， 且 不 加 0; 
* nrz: 行 号 在 所 在 栏 的 最 右 方 显示 ， 且 加 0。 
。 -w: 行 号 所 在 栏 占用 的 字符 数 。 
nl -b a bunfly 命令 示例 如 下 : 


[root@locahost tmp]# nl -b a bunfly 
1 Hello bunfly 001 

2 Hello bunfly 002 

Bl www.bunfly.com 


4 <== 空 行 ( 没 有 数据 的 一 行 ? 
5 < 一 空 行 ( 没 有 数据 的 一 行 ) 


[root@locahost tmp]# 


nl — t bunfly 命令 示例 如 下 : 


[root@locahost tmp]# nl -b t bunfly 
it Hello bunfly 001 

2 Hello bunfly 002 

3 www.bunfly.com 

[root@locahost tmp]# 


2) 翻 页 查看 文件 内 容 : more, less 


(1) more 命令 是 一 页 一 页 地 显示 文件 信息 。 在 more 命令 运行 过 程 中 ， 可 以 使 用 以 下 


按键 进行 后 续 操作 ， 如 表 2.3 所 示 。 


表 2.3 
按键 功能 
Enter 代表 向 下 翻 一 行 
/ 代表 在 这 个 显示 内 容 中 ， 向 下 查询 “字符 ”这 个 关键 字 


立刻 显示 出 文件 名 以 及 目录 显示 的 行 数 
代表 立刻 离开 more， 不 再 显示 该 文件 内 容 
代表 往 回 翻 页 ， 该 操作 只 对 文件 有 用 
重复 搜索 同一 个 字符 


Zuwou 


(2) less 命令 与 more 命令 功能 类 似 ， 区 别 是 less 命令 在 运行 过 程 中 可 以 使 用 以 表 2.4 


所 示 的 按键 进行 后 续 操作 。 


表 2.4 
按键 功能 
空格 键 向 下 翻 一 页 
PgDn 向 下 翻 一 页 
PgUp 向 上 翻 一 页 
向 下 搜索 “字符 ”的 功能 
向 上 搜索 “字符 ”的 功能 


重复 前 一 个 搜索 

反 向 地 重复 前 一 个 搜索 

显示 到 这 个 文件 的 第 一 行 去 
显示 到 这 个 文件 的 最 后 一 行 去 
离开 less 这 个 程序 


lo Qo ze> 


3) 获取 资料 命令 : head, tail 


料 
(1) head 命令 是 查询 文件 内 容 的 命令 ， 它 可 以 指定 参数 从 前 往 后 显示 指定 的 行 数 。 


语法 : 
head [参数 ] [文件 名 ] 


第 
2 
地 
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参数 : 

a n 代表 int 类 型 数字 ， 假 设 数字 设置 为 3， 显示 的 内 容 从 前 往 后 显示 前 3 行 ， 如 果 
不 指定 参数 ， 则 默认 显示 前 10 行 。 

head bunfly 命令 示例 如 下 : 


[root@locahost tmp]# head bunfly 
iB Hello bunfly 001 
2 Hello bunfly 002 
3 www.bunfly.com 
4 
5 


[root@locahost tmp]# 


(2) tail 命令 也 是 查询 命令 ， 它 是 从 后 往 前 显示 指定 的 行 数 ， 并 且 空 格 也 被 显示 出 来 。 
语法 : 


tail [参数 ] file 


选项 与 参数 

en: n 代表 int 类 型 数字 ， 假 设 数字 设置 为 3， 显 示 的 内 容 从 前 往 后 显示 前 3 行 ， 如 
果 不 指 定 参数 ， 则 默认 显示 后 10 行 。 

of: 代表 实时 显示 。 

tail -10 bunfly 命令 示例 如 下 : 


[root@locahost tmp]# tail -3 bunfly 
3 www.bunfly.com 

4 

3 

[root@locahost tmp]# 


4) od 命令 是 查询 非 纯 文 字 文件 命令 
iik: 


od [参数 ] [文件 名 ] 


e t: 后 面 可 以 接 类 型 (type) 的 输出 
ca: 利用 默认 的 字符 进行 输出 。 

e c: 使 用 ASCI 字符 进行 输出 

od —t c bunfly 命令 示例 如 下 : 


[root@locahost tmp]# od -t c bunfly 


0000000 H e 1 1 o Bia mi to d y 0 0 
0000020. \n H e 1 ITI o ley ER Sp te Y 00 
000040 NAAAPI cc T 


0000060 \n Mn An 


0000064 
[root@locahost tmp]# 


最 左边 第 一 列 是 以 八进制 表示 的 bytes 数 。 

5. 文件 与 目录 的 默认 权限 与 隐藏 权限 

1) umask 命令 用 于 设置 默认 文件 权限 命令 

umask 命令 是 用 于 设置 用 户 在 创建 文件 时 的 默认 权限 ， 在 系统 中 创建 目录 或 文件 时 ， 
目录 或 文件 所 具有 的 默认 权限 就 是 由 umask 值 决定 的 。 


[root@locahost ~]# umask 
0022 

[root@locahost ~]# 
[root@locahost ~]# umask -S 


U-rWwX,g-rx,o-rx 
[root@locahost ~]# 


若 使 用 者 创建 文件 ， 则 默认 没有 可 执行 GO BUR. RAT GD Mw CHO 两 个 权限 ， 
也 就 是 最 大 限 为 666， 默 认 权 限 如 下 : -rw-rw-rw-。 

若 使 用 者 创建 目录 ， 则 由 于 x 与 是 否 可 以 进入 此 目录 有 关 ， 因 此 默认 开放 所 有 权限 ， 
即 777， 默 认 权 限 如 下 : drwxrwxrwx。 

在 默认 情况 下 ，r、w、x 的 分 值 分 别 是 4、2、1 分 ，umask 的 分 数 指 “该 默认 值 需要 
减 去 的 权限 ” 即 当 需 要 拿 掉 “ 写 ”的 权限 ， 则 为 2 分 ， 而 如 果 要 拿 掉 读 的 权限 ， 则 为 4 
分 。 上 述 umask 为 002， 表 示 user. group 并 没有 被 拿 掉 任何 权限 ， 不 过 others 的 权限 被 拿 
掉 了 2 分 ， 也 就 是 说 others 被 拿 掉 了 写 权 限 。 

2) 文件 隐藏 属性 命令 : chattr. Isattr 

(1) chattr 命令 是 设置 文件 隐藏 属性 的 命令 。 

语法 : 

chattr [+ - ] [参数 ] [文件 ] 


BR: 

ot: 增加 某 一 个 特殊 参数 ， 其 他 原本 存在 参数 则 不 动 。 

。 -: 移 除 某 一 个 特殊 参数 ， 其 他 原本 存在 参数 则 不 动 。 

。 a: 当 设 置 a 后 ， 这 个 文件 将 只 能 增加 信息 ， 不 能 修改 、 删 除 信息 ， 只 有 root 才能 
设 定 这 个 参数 。 

ei: 当 设 置 1 后 ， 则 该 文件 “不 能 被 删除 、 改 名 、 设 置 链 接 也 无 法 定稿 或 新 增 信息 ”， 
可 增加 系统 安全 性 ， 只 有 root 能 设置 该 属性 。 

常见 的 属性 是 a 和 i， 且 很 多 属性 只 有 root 才能 设置 。 


[root@locahost tmp]# touch attrtest <== 创 建 attrtest 文 件 

[root@locahost tmp]# chattr +i attrtest <== 给 attrtest 文 件 赋予 i 的 权限 
[root@locahost tmp]# rm attrtest <== 删 除 attrtest 

rm: 是 否 删除 普通 空 文件 "attrtest" ? Y < 是 否 删 除 ， 设 置 为 Y (是 ) 2 
rm: 无 法 删除 " attrtest " : 不 允许 的 操作 <== 删 除 失败 
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[root@locahost tmp]# chattr -i attrtest < 一 给 attrtest 文 件 去 掉 i 的 权限 


[root@locahost tmp]# rm attrtest <== 删 除 attrtest 
rm: 是 否 删除 普通 空 文件 " attrtest"?Y <== 是 否 删除 ， 设 置 为 Y (是 ) 
[root@locahost tmp]# <== 没 有 任何 错误 ， 表 示 删 除 成 功 


在 上 述 例子 中 用 touch attrtest 命令 创建 了 一 个 attrtest 文件 ， 并 用 chattr +i attrtest 命令 
给 attrtest 文件 赋予 i 的 权限 ,然后 用 rm attrtest 命令 删除 attrtest 文件 ,此 时 rm 发 出 提示 “rm: 
cannot remove 'attrtest' : Operation not permitted”， 不 允许 执行 删除 操作 ， 只 有 通过 chattr I 
attrtest 命令 减 去 attrtest 文件 的 1 权限 后 才能 删除 attrtest 文件 。 

(2) lsattr 命令 是 显示 文件 隐藏 属性 的 命令 。 

语法 : 


lsattr [参数 ] [文件 ] 


e -a: 显示 隐藏 属性 。 
。 -d: 如 果 接 的 是 目录 ， 则 仅 显 示 目 录 本 身 的 属性 而 不 是 目录 内 的 文件 名 。 
eR: 连同 子 目录 的 文件 一 起 显示 。 


[root@locahost ~]# cd /tmp <== 切 换 目录 到 /tmp 
[root@locahost tmp]# touch bunfly <== 创 建文 件 名 为 punfly 
[root@locahost tmp]# chattr +aiS bunfly <== 为 bunfly 文 件 设置 属性 
[root@locahost tmp]# lsattr bunfly <== 显 示 bunfly 文 件 隐 藏 的 属性 
--S-ia------- e- bunfly <== 查 看 punf1y 文 件 属性 结果 


[root@locahost tmp]# 


3) 查看 文件 类 型 : file 
查看 文件 属于 哪 类 文件 的 基本 信息 ， 如 文件 属于 ASCI, data 或 者 binary 等 。 显 示 文 
件 的 类 型 是 ASCII 的 纯 文字 文件 。 


[root@locahost 一 ]# file ~/.bashrc 
/root/.bashrc: ASCII text 


显示 passwd 的 文件 信息 ,如 文件 的 suid 权限 、 兼 容 Intel x86-64 的 硬件 平台 、 使 用 Linux 
核心 2.6.18 的 动态 方法 库 连 接 等 。 
[root@locahost 一 ]# file /usr/bin/passwd 


/usr/bin/passwd: setuid ELF 64-bit LSB shared object, x86-64, version 1 
(SYSV), dynamically linked (uses shared libs), for GNU/Linux 2.6.18, stripped 


6 查找 命令 和 文件 

1) which 命令 是 查找 指定 命令 所 在 路 径 的 命令 。 

which 根据 环境 变量 PATH 所 规范 的 路 径 查 询 执行 文件 的 文件 名 。 
语法 : 


which [参数 ] [命令 ] 


参数 : 

-a: 将 所 有 由 PATH 目录 中 可 以 找到 的 命令 均 列 出 ， 而 不 止 第 一 个 找到 的 命令 名 称 。 
示例 如 下 : 

(1) 查询 ifconfig 命令 的 完整 文件 名 。 


[root@locahost ~]# which ifconfig 
/sbin/ifconfig 


(2) 用 which 找 出 which 的 文件 名 。 显 示 两 个 which， 其 中 一 个 是 alias 命令 别名 ， 输 
入 which 等 于 后 面 接 的 那 串 命令 。 


[root@locahost ~]# which which 

alias which-'alias | /usr/bin/which --tty-only --read-alias --show-dot 
--show-tilde' 

/usr/bin/which 


(3) 查询 history 命令 的 完整 文件 名 。 


[root@locahost 一 ]# which history 
/usr/bin/which: no history in (/usr/local/sbin:/usr/local/bin:/sbin:/bin:/ 
usr/sbin: /usr/bin: /root/bin) 


在 最 后 一 个 应 用 中 ，history 这 个 常用 命令 找到 ， 是 因为 history 是 bash 的 内 建 命令 ， 
而 which 默认 查找 PATH 内 所 规范 的 目录 。 

2) 查找 文件 的 文件 名 : whereis、find 

CD whereis 命令 。 用 于 在 一 些 特定 的 目录 中 查询 指定 命令 路 径 。 

语法 : 

whereis [参数 ] [文件 ] 


参数 : 

e -b: 只 查找 binary 格式 的 文件 。 

em: 只 查找 在 说 明 manual 路 径 下 的 文件 。 
示例 如 下 : 

查找 ifconfig 的 文件 名 。 


[root@locahost 一 ]# whereis ifconfig 
ifconfig: /sbin/ifconfig /usr/share/man/man8/ifconfig.8.gz 


只 查询 在 man 里 面 的 passwd 文件 。 


[root@locahost ~]# whereis -m passwd 
passwd: /usr/share/man/manl/passwd.1.gz 


whereis 命令 主要 是 针对 /bin/sbin 目录 下 的 执行 文件 , 以 及 /usr/share/man 目录 下 的 man 
文件 , 或 者 几 个 特定 的 目录 进行 查找 ， 所 以 速度 较 快 。 可 以 使 用 “whrereis -1” 查 看 whereis | 2 
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查找 的 目录 。 


[root@locahost ~]# whereis -1 
whereis [ -sbmu ] [ -SBM dir ... -f ] name... 
[root@locahost ~]# 


(2) find 命令 。 

Linux 下 find 命令 的 作用 是 在 目录 结构 中 搜索 文件 ， 并 执行 指定 的 操作 。Linux 下 find 
命令 提供 了 相当 多 的 查找 条 件 ， 功 能 非常 强大 ， 所 以 find 的 选项 也 非常 多 。 本 节 介 绍 find 
的 选项 的 功能 和 简单 的 find 使 用 。 

语法 : 

find [查询 路 径 ] [选项 ] [参数 ] [查询 内 容 ] 

选项 : 

。 -name: 按照 文件 名 称 查找 文件 。 

。 -path: 指定 目录 下 文件 匹配 的 路 径 。 

e -type: 查找 某 一 类 型 的 文件 。 
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e b: 块 设备 文件 。 

d: 目录 。 

c: 字符 设备 文件 。 
p: 

l: 


管道 文件 。 
符号 链接 文件 。 
f 普通 文件 。 
示例 如 下 : 
查找 指定 时 间 内 修改 过 的 文件 。 例如， 通过 find -atime -1 命令 可 以 查询 到 一 天 内 修改 
过 的 文件 。 


[root@locahost 一 ]# find -atime -1 


sf2ssh 
./.ssh/known hosts 
./.bash history 
./.vimrc 
[root@locahost ~]# 


根据 关键 字 查找 。 例 如 ， 通 过 find / -name mysql 命令 可 以 在 根 目 录 下 全 盘 搜 索 mysql 
关键 字 。 

[root@locahost 一 ]# find / -name mysql 

/usr/share/mysql 

/usr/1ib64/mysql 

[root@locahost ~]# 


按 类 型 查找 。 例 如 ,通过 find / -type f -name *.log 命令 可 在 根 目录 下 查询 所 有 以 .log 接 


尾 的 普通 文件 。 


[rootelocahost ~]# find / -type f -name *.log 


/root/install.log 
[root@locahost ~]# 


查找 当前 所 有 目录 并 排序 。 例 如 ， 通 过 find /tmp -type d | sort 命令 可 以 查询 到 tmp 下 
的 所 有 目录 ， 并 排序 显示 出 来 。 


/tmp 


/tmp/Jetty 0 


/tmp 
/tmp/Jetty 0 


/tmp/.ICE-unix 


rootélocahost 一 ]# find /tmp -type d |sort 


0 0 0 50070 hdfs w2cu08 


root@locahost ~]# 
按 文件 大 小 查找 文件 。 


root@locahost ~]# find /tmp -size +1000c -print 


0 0 O 50070 hdfs w2cu08 


root@locahost ~]# 


242 用户 和 用 户 组 管理 


Linux 系统 是 一 个 多 用 户 多 任务 的 操作 系统 。 任 何 一 个 要 使 用 系统 资源 的 用 户 ， 都 必 
须 先 向 系统 管理 员 申 请 一 个 账号 ， 然 后 使 用 所 申请 账号 登录 系统 。 
系统 管理 员 用 户 可 以 对 所 有 申请 的 账号 的 普通 用 户 进行 跟踪 ， 并 控制 他 们 对 系统 资源 
的 访问 ; 系统 管理 员 用 户 也 可 以 帮助 用 户 组 织 文件 ， 并 为 用 户 提供 安全 性 保护 。 每 个 用 户 
账号 都 拥有 一 个 唯一 的 用 户 名 和 口令 ， 用 户 在 登录 时 输入 正确 的 用 户 名 和 口令 后 ， 才 能 够 


进入 系统 。 


1. Linux 系统 用 户 账号 的 管理 
用 户 账号 的 管理 工作 主要 涉及 用 户 账 号 的 添加 、 修 改 和 删除 。 


1) 添加 账号 


关于 useradd 命令 的 讲解 视频 可 扫描 二 维 码 观看 。 
添加 新 的 用 户 账 号 使 用 useradd 命令 。 


iik: 


useradd [参数 ] [用 户 名 ] 


参数 : 


e -d: 指定 用 户主 目录 。 
。 -u: 指定 用 户 的 用 户 号 。 


示例 如 下 : 
(1) 创建 一 个 有 


HJ". 。 通 过 useradd hadoop 命令 在 Linux 系统 品 
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的 用 户 ， 系 统 将 在 home 目录 下 为 hadoop 用 户 创建 一 个 以 自己 命名 的 文件 夹 。 
[root@locahost /]# useradd hadoop <== 创 建 名 为 hadoop 的 用 户 
[root@locahost /]# <== 未 提示 任何 信息 ， 一 般 表 示 创 建成 功 
(2) 创建 一 个 用 户 并 给 它 指定 家 目录 地 址 。useradd -d /home/spark hadoop3 命令 在 

Linux 系统 中 创建 了 一 个 名 字 为 hadoop3 的 用 户 ， 并 重新 指定 hadoop3 用 户 的 家 目录 在 

/home/spark Hat F. /home/spark 目录 不 能 存在 ， 当 执行 useradd -d /home/spark hadoop3 fix 

令 时 会 自动 生成 该 目录 。 


[root@locahost /]# useradd -d /home/spark hadoop3 


(3) 指定 用 户 家 目录 且 创 建 hadoop3 用 户 ， 可 以 通过 cat /etc/passwd 命令 查看 所 有 用 
户 及 用 户 信息 。 

[root@locahost /] cat /etc/passwd 

hadoop:x:500:0::/home/hadoop: /bin/bash 


hadoop3:x:501:502: :/home/spark: /bin/bash 
[root@locahost /]# 


2) 删除 账号 

关于 userdel 命令 的 讲解 视频 可 扫描 上 一 页 的 二 维 码 观 看 。 

删除 已 有 的 用 户 使 用 userdel 命令 。 

如 果 一 个 用 户 的 账号 不 再 使 用 ,， 则 可 以 利用 userdel 命令 从 系统 中 删除 。 删除 用 户 账号 
相当 于 在 /etc/passwd 文件 和 相关 文件 中 将 指定 的 用 户 记录 删除 ， 必 要 时 还 需要 删除 用 户 的 
EH. 

语法 : 

userdel [参数 ] [用 户 名 ] 


参数 : 

4: 把 用 户 的 主 目录 一 起 删除 。 

示例 如 下 : 

CD 删除 用 户 。 通 过 userdel hadoop2 命令 仅 删除 hadoopl 在 /etc/passwd 文件 中 的 记录 ， 
但 主 目录 并 没有 删除 。 

[root@locahost home]# userdel hadoop2 《<== 删 除 hadoop2 用 户 ， 不 删除 其 主 目录 


[root@locahost home]# 1s <== 查 看 各 用 户 的 主 目 录 
hadoop hadoop2 Master0 spark < 一 可 知 hadoop2 用 户 的 主 目录 未 被 删除 


(2) 删除 用 户 所 有 信息 。 通 过 userdel -r hadoop2 命令 删除 hadoop2 在 /etc/passwd 文件 
中 的 记录 ， 并 把 hadoop2 用 户 的 主 目录 一 并 删除 。 


[root@locahost home]# useradd hadoop2 <== 重 新 创建 hadoop2 用 户 
[root@locahost home]# userdel -r hadoop2 <== 删 除 hadoop2 及 其 主 目录 


[root@locahost home]# 1s 


hadoop Master0 spark <== 可 知 hadoop2 主 目录 已 删除 


3) 修改 账号 

修改 用 户 账号 使 用 usermod 命令 。 修 改 用 户 账 号 就 是 根据 实际 情况 更 改 用 户 的 有 关 属 
性 ， 如 用 户 号 、 主 目录 、 用 户 组 、 登 录 shell 等 。 

语法 : 

usermod [参数 ] [用 户 名 ] 


参数 : 
-e: 修改 账号 的 有 效 期 限 。 
d: 修改 用 户 账号 名 称 。 
-L: 锁定 用 户 密码 ， 使 用 密码 无 效 。 
-U: 解除 密码 锁定 。 

4) 用 户口 令 的 管理 

passwd 命令 用 于 对 用 户 密码 进行 管理 作用 。 用 户 管理 主要 内 容 是 用 户口 令 的 管理 ,用 
户 账号 创建 时 没有 口令 ， 且 被 系统 锁定 ， 无 法 使 用 ， 必 须 为 其 指定 口令 后 才 可 使 用 (即使 
口令 指定 为 空 )。 

指定 和 修改 用 户口 令 的 shell 命令 是 passwd， 管 理 用 户 可 以 为 自己 和 其 他 的 普通 用 户 
指定 口令 ， 普 通用 户 只 能 修改 自己 的 口令 。 

语法 : 

passwd [参数 ] [用 户 名 ] 


参数 : 

€ -l: 锁定 口令 、 禁 用 账号 。 

e -u: 口令 解锁 。 

。 d: 使 账号 无 口令 。 

ef: 强迫 用 户 下 次 登录 时 修改 口令 。 

如 果 passwd 命令 没有 输入 用 户 , 则 默认 修改 当前 用 户口 令 。 仅 管理 员 用 户 可 指定 任何 
用 户 的 口令 ， 普 通用 户 仅 能 修改 自己 的 口令 。 普 通用 户 修改 自己 口令 时 ，passwd 命令 会 先 
询问 原 口令 ， 验 证 后 再 要 求 用 户 输入 两 遍 新 口令 ， 如 果 两 次 输入 的 口令 一 致 ， 则 将 这 个 新 
口令 指定 给 用 户 。 而 管理 员 用 户 为 普通 用 户 指定 口令 时 ， 则 不 需要 知道 原 口令 。 为 了 系统 
安全 起 见 ， 用 户 应 该 选择 比较 复杂 的 口令 ， 如 “大 写 + 小 写 + 符 号 + 数字 ”等 组 合 命令 。 

passwd -d hadoop2 命令 是 为 hadoop2 用 户 指定 一 个 空 命令 ， 可 以 通过 exit 命令 退出 当 
前 用 户 ， 再 用 之 前 创建 的 hadoop2 用 户 登录 ， 用 hadoop2 用 户 登录 到 Linux 系统 是 不 需要 
输入 密码 的 。 


[rootelocahost home]# passwd -d hadoop2 <== 删 除 hadoop2 用 户 的 密码 
清除 用 户 的 密码 hadoop2. 

passwd: 操作 成 功 

[root@locahost home]# su hadoop2 <== 切 换 用 户 hadoop2， 不 需要 密码 
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2. Linux 系统 用 户 组 的 管理 

每 个 用 户 都 有 一 个 用 户 组 ， 系 统 可 以 对 一 个 用 户 组 中 的 所 有 用 户 进行 集中 管理 。 用 户 
组 的 管理 涉及 用 户 组 的 添加 、 删 除 和 修改 。 用 户 组 的 添加 、 删 除 和 修改 实际 上 就 是 对 
/etc/group 文件 的 更 新 。 

1) groupadd 命令 

使 用 groupadd 命令 可 以 增加 一 个 新 的 用 户 组 。 

语法 : 

groupadq [参数 ] [新 用 户 组 ] 


参数 : 

o -g: 指定 新 用 户 组 的 组 标识 (GID)。 

。 -0: 表示 新 用 户 组 的 GD 可 以 与 系统 已 有 用 户 组 的 GID 相同 。 

示例 如 下 : 

(1) 向 系统 中 增加 group] 组 , 新 组 的 组 标识 号 是 在 当前 已 有 的 最 大 组 标识 号 的 基础 上 
加 1。 


[hadoop@locahost 一 ]# groupadd groupl <== 添 加 用 户 组 
[hadoop@locahost ~]# 


(2) 向 系统 中 增加 group2 组 ， 同 时 指定 新 组 的 组 标识 号 是 101。 


[hadoop@locahost ~]# groupadd -g 101 group2 
[hadoop@locahost ~]# 


2) groupdel 命令 
如 果 要 删除 一 个 已 有 的 用 户 组 ， 可 以 使 用 groupdel 命令 。 
语法 : 


groupdel [用 户 组 ] 
示例 如 下 : 将 系统 中 的 group] 组 删除 。 


[hadoop@locahost 一 ]# groupdel groupl 
[hadoop@locahost ~]# 


3) groupmod 命令 

如 果 要 修改 用 户 组 的 属性 ， 可 以 使 用 groupmod 命令 。 
语法 : 

groupmod [参数 ] [用 户 组 ] 


参数 : 
* -g: GID 为 用 户 组 指定 新 的 组 标识 号 。 
en: 将 用 户 组 的 名 字 改 为 新 名 字 。 


示例 如 下 : 
(1) 将 group2 组 的 组 标识 修改 为 102。 


hadoop@locahost ~]# exit <== 退 出 当前 用 户 ， 进 入 root 用 户 
root@locahost ~]# groupmod -g 102 group2 <== 将 group2 的 组 标识 修改 为 102 


(2) 将 group2 组 的 组 标识 号 修改 为 10000， 并 且 将 group2 组 的 组 名 修改 为 group3。 
root@locahost ~]#groupmod -g 10000 -n group3 group2 


4) 多 组 用 户 

如 果 一 个 用 户 同时 属于 多 个 用 户 组 ， 那 么 用 户 可 以 在 多 个 用 户 组 之 间 切 换 ， 方 便 具 有 
其 他 用 户 组 的 权限 。 用 户 可 以 在 登录 后 ， 使 用 newgrp 命令 切换 到 其 他 用 户 组 ， 这 个 命令 的 
参数 就 是 目标 用 户 组 。 

示例 如 下 : 


hadoop@localhost ~]$ newgrp root 


上 述 命令 将 当前 用 户 切 到 root 用 户 组 ， 前 提 条 件 是 hadoop 用 户 确实 属于 root 组 或 附 
加 组 ， 类 似 于 用 户 账号 的 管理 ， 用 户 组 的 管理 也 可 以 通过 集成 的 系统 管理 工具 来 完成 。 

3. 与 用 户 账 号 有 关 的 系统 文件 

完成 用 户 管理 的 工作 有 许多 种 方法 ， 但 每 一 种 方法 实际 上 都 是 对 有 关 的 系统 文件 进行 
修改 。 把 用 户 和 用 户 组 相关 的 信息 都 存放 在 一 些 系统 文件 中 ， 这 些 文件 包括 /etc/passwd、 
/etc/shadow、/etc/group 等 ， 下 面 分 别 介绍 这 些 文件 的 内 容 。 

1) /etc/passwd 

/etc/passwd 是 用 户 数据 库 ， 其 中 的 域 给 出 了 用 户 名 、 加 密 口 令 和 用 户 的 其 他 信息 。 

格式 : 


name: password: uid: gid: comment: home: shell 


解释 : 

name: 用 户 登录 名 。 

password: 用 户口 令 。 此 域 中 的 口令 是 加 密 的， 常用 x 表示 。 当 用 户 登 录 系统 时 ， 
系统 对 输入 的 口令 采取 相同 的 算法 ， 与 此 域 中 的 内 容 进 行 比较 。 如 果 此 域 为 空 ， 表 
明 该 用 户 登 录 时 不 需要 口令 。 

uid: 指定 用 户 的 UID。 用 户 登 录 进 系统 后 ， 系 统 通过 该 值 ， 而 不 是 用 户 名 来 识别 用 户 。 
gid: 如 果 系 统 要 对 相同 的 一 群 人 赋予 相同 的 权利 ， 则 使 用 该 值 。 

comment: 用 来 保存 用 户 的 真实 姓名 和 个 人 细节 。 

home: 指定 用 户 的 主 目录 的 绝对 路 径 。 

shell: 如 果 用 户 登 录 成 功 ， 则 要 执行 的 命令 的 绝对 路 径 放 在 这 一 区 域 中 ， 它 可 以 是 
任何 命令 。 

示例 如 下 : 


root: x: 0: 0: root: /root: /bin/bash 
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root 用 户 记 录 信 息 被 6 个 “: ”符号 分 隔 开 ， 一 共有 7 个 区 域 ， 下 面 将 解释 这 7 个 区 域 
的 每 个 信息 。 


第 一 段 : 
第 二 段 : 
第 三 段 : 
第 四 段 : 
第 五 段 : 
BB: 
第 七 段 : 


用 户 名 。 

加 密 后 的 密码 。 

UID 用 户 标识 。 

GID 组 标识 。 

用 户 命名 。 

开始 目录 。 

对 登录 命令 进行 解析 的 工具 。 


2) /etc/shadow 
/etc/shadow 文件 中 的 记录 行 与 /etc/passwd 中 的 一 一 对 应 ， 它 由 pwconv 命令 根据 


/etc/passwd 
段 之 间 用 “ 
格式 : 


中 的 数据 自动 产生 ， 它 的 文件 格式 与 /etc/passwd 类 似 ， 由 若干 个 字段 组 成 ， 字 
:” 隔 开 。 


name: passwd: 13675: 0: 99999: 7: : 


每 一 行 给 一 个 特殊 账户 定义 密码 信息 ， 每 个 字段 用 “: ” 隔 开 。 


字段 1: 
字段 2: 
字段 3: 
字段 4: 
字段 3: 
字段 6: 
字段 7: 
字段 8: 
字段 9: 


定义 与 这 个 shadow 条 目 相 关联 的 特殊 用 户 账户 。 

包含 一 个 加 密 的 密码 。 

É 1/1/1970 起 ， 密 码 被 修改 的 天 数 。 

密码 将 被 允许 修改 之 前 的 天 数 CO 表示 “可 在 任何 时 间 修 改 ”)。 

系统 将 强制 用 户 修改 为 新 密码 之 前 的 天 数 (1 表示 “永远 都 不 能 修改 ”)。 
密码 过 期 之 前 ， 用 户 将 被 警告 过 期 的 天 数 Cl 表示 “没有 警告 ”)。 
密码 过 期 之 后 ， 系 统 自 动 禁用 账户 的 天 数 〈-1 表示 “永远 不 会 禁用 ”)。 
该 账户 被 禁用 的 天 数 〈-1 表示 “该 账户 被 启用 ”)。 

保留 供 将 来 使 用 。 


示例 如 下 : 


hadoop: 


第 一 段 : 
第 二 段 : 
第 三 段 : 
第 四 段 : 
第 五 段 : 
第 六 段 : 
第 七 段 : 
SABE 


第 九段 
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hadoop 用 户 名 。 

密码 为 空 。 

上 次 修改 密码 的 时 间 。 

密码 不 可 被 变更 的 天 数 。 

密码 需要 被 重新 变更 的 天 数 ，99999 表示 不 需要 变更 。 
密码 变更 前 提前 几 天 提醒 。 

账号 失效 时 间 。 

账号 取消 时 间 。 

: 保留 字段 。 


3) /etc/group 
将 用 户 分 组 是 Linux 系统 中 对 用 户 进行 管理 及 控制 访问 权限 的 一 种 方式 。 每 个 用 户 都 


属于 某 个 用 户 组 ， 一 个 组 中 可 以 有 多 个 用 户 ， 一 个 用 户 也 可 以 属于 多 个 不 同 的 组 。 当 一 个 
用 户 同时 是 多 个 组 中 的 成 员 时 ，/etc/passwd 文件 中 记录 的 是 用 户 所 属 的 主 组 ， 也 就 是 登录 


时 所 属 的 默认 组 ， 而 其 他 组 称 为 附加 组 。 


用 户 要 访问 属性 附加 组 的 文件 时 ， 必 须 先 使 用 newgrp 命令 使 自己 成 为 所 要 访问 组 中 
的 成 员 。 用 户 组 的 所 有 信息 都 存放 在 /etc/group 文件 中 ， 此 文件 的 格式 也 类 似 于 /etc/passwd 


文件 ， 由 “:” 符 号 隔 开 若干 字段 。 
格式 : 


name: passwd: gid: list 


每 一 行 给 一 个 特殊 账户 定义 密码 信息 ， 每 个 字段 用 “:” 隔 开 。 
e name: 用 户 名 。 

e passwd: 密码 。 

e gid: 组 标识 。 

。 list: 组 内 用 户 列表 。 

4. 批量 添加 用 户 


添加 和 删除 用 户 是 每 位 Linux 系统 管理 员 的 必 备 技能 。 比 较 棘手 的 是 如 果 要 添加 几 十 
个 、 几 百 个 甚至 几 千 个 用 户 ， 不 太 可 能 使 用 useradd 命令 逐一 添加 ， 必 然 要 找 一 种 创建 大 


量 用 户 的 简便 方法 。 


Linux 系统 提供 了 创建 大 量 用 户 的 接口 ， 可 以 即刻 创建 大 量 用 户 ， 步 又 如 下 。 


1) 编辑 一 个 文本 用 户 文件 


每 一 列 按照 /etc/passwd 密码 文件 的 格式 书写 ， 要 注意 每 个 用 户 的 用 户 名 、UID、home 


目录 都 不 可 以 相同 ， 其 中 密码 栏 可 以 留 做 空白 或 输入 x 号 。 
范例 文件 usertxt 内 容 如 下 : 
user001:: 601: 100: user: /home/user001: /bin/bash 
user002:: 602: 100: user: /home/user002: /bin/bash 
user003:: 603: 100: user: /home/user003: /bin/bash 
user004:: 604: 100: user: /home/user004: /bin/bash 
user005:: 605: 100: user: /home/user005: /bin/bash 


user00n:: 60n: 100: user: /home/user00n: /bin/bash 


2) Xf user. txt 数据 导入 passwd 


以 root 身份 执行 命令 /usr/sbin/newusers， 从 刚 创 建 的 用 户 文件 usertxt 中 导入 数据 ， 创 


建 用 户 : 


[root@localhost ~] # newusers < user.txt 


然后 可 以 用 cat 或 vi 命令 检查 /etc/passwd 文件 中 是 否 出 现 刚刚 导入 的 用 户 信息 。 然 后 


再 查询 /home 目录 下 是 否 出 现 用 户 的 家 目录 。 


3) 执行 命令 /ust/sbin/pwunconv 


将 /etc/shadow 产生 的 shadow 密码 解码 , 然后 回 写 到 /etc/passwd 中 , 并 将 /etc/shadow 


BANAL] 
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的 shadow 密码 栏 删 掉 。 这 是 为 了 方便 “下 一 步 ” 的 密码 转换 工作 ， 即 先 取 消 shadow 
password 功能 。 


[root@localhost ~]# pwunconv 


4) 编辑 每 个 用 户 的 密码 对 照 文件 
范例 文件 passwd.txt 内 容 如 下 : 


user001: 密码 
user002: 密码 
user003: 密码 
user004: 密码 
user005: 密码 


user00n: 密码 


以 root 身份 执行 命令 /usr/sbin/chpasswd。 
创建 用 户 密码 ，chpasswd 会 将 经 过 /usr/bin/passwd 命令 编码 过 的 密码 写 入 /etc/passwd 
的 密码 栏 。 


[root@localhost ~]# chpasswd < passwd.txt 


确定 密码 经 编码 写 入 /etc/passwd 的 密码 栏 后， 执行 /usr/sbin/pwconyv 命令 将 密码 编码 为 
shadow password 格式 ， 并 将 结果 写 入 /etc/shadow。 


[root@localhost ~]# pwconv 


这 样 就 完成 了 大 量 用 户 的 创建 ， 之 后 回 到 /home 下 检查 这 些 用 户 的 主 目录 权限 设置 是 
否 都 正确 ， 并 登录 验证 用 户 密 码 是 否 正确 。 


25 “习题 与 思考 


l. 尝试 独立 在 虚拟 平台 中 安装 Linux 虚拟 系统 ， 配 置 网 络 设置 ， 使 XShell 工具 能 够 

2. 尝试 在 Linux 系统 中 使 用 tar 命令 将 /etc 目录 压缩 成 etctargz 文件 ， 将 etc.tar.gz X 
件 剪 切 到 /usrtmp 目录 ， 并 对 etc.tar.gz 文件 解压 。 

3， 在 /usr/tmp 中 创建 tmpfile.txt 文件 ， 对 tmpfile.txt 设置 所 有 用 户 均 有 读 、 写 权限 。 

4. 尝试 在 Linux 系统 中 创建 Hive 用 户 , 并 在 Hive 目录 家 目录 下 创建 software 文件 夹 。 


第 3 章 任务 命令 


3.1 脚本 配置 


3.1.1 Shell 脚本 


Shell 是 用 C 语言 编写 的 程序 ， 它 是 用 户 使 用 Linux 内 核 的 桥梁 。Shell 既是 一 种 命令 
语言 ， 又 是 一 种 程序 设计 语言 。Shell 应 用 程序 提供 了 一 个 界面 ， 用户 通过 这 个 界面 可 以 访 
问 操作 内 核 的 服务 。 关 于 Shell 的 讲解 视频 可 扫描 二 维 码 观看 。 

Shell 脚本 (Shell Script) 是 一 种 为 Shell 编写 的 脚本 程序 。 业 界 所 说 的 
Shell 通常 是 指 Shell 脚本 ， 但 Shell 和 Shell Script 是 两 个 不 同 的 概念 。 

Shell 编程 跟 Java、PHP 编程 一 样 ， 只 需要 一 个 能 编写 代码 的 文本 编辑 
器 和 一 个 能 解释 执行 的 脚本 解释 器 。 

Linux 的 Shell 种 类 众多 ， 常 见 的 有 : 

e Bourne Shell (/usr/bin/sh 或 /bin/sh) 

e Bourne Again Shell (/bin/bash) 

e CShell (/usr/bin/csh) 

e K Shell (/usr/bin/ksh) 

e Shell for Root (/sbin/sh) 
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xe 

关于 Shell 变量 的 讲解 视频 可 扫描 二 维 码 观看 。 EUNTES 

Linux 的 Shell 编程 是 一 种 非常 成 熟 的 编程 语言 ， 它 支持 各 种 类 型 的 变量 。 有 三 种 主要 
的 变量 类 型 : 环境 变量 、 局 部 变量 和 Shell 变量 。 

环境 变量 : 所 有 的 程序 ， 包 括 Shell 启动 程序 ， 都 能 访问 环境 变量 。 有 些 程序 需要 环 
境 变量 来 保证 其 正常 运行 ， 必 要 的 时 候 Shell 脚本 也 可 以 自 定义 环境 变量 。 

局 部 变量 : 局 部 变量 是 在 脚本 或 命令 中 定义 ， 仅 在 当前 Shell 实例 中 有 效 ， 其 他 Shell 
程序 不 能 访问 的 局 部 变量 。 

Shell 变量 : Shell 变量 是 由 Shell 程序 设置 的 特殊 变量 。Shell 变量 中 有 一 部 分 是 环境 变 
量 ， 有 一 部 分 是 局 部 变量 ， 这 些 变量 保证 了 Shell 的 正常 运行 。 

Shell 编程 和 其 他 编程 语言 的 主要 不 同 之 处 是 : 在 Shell 编程 中 , 变量 是 非 类 型 性 质 的 ， 
不 必 指 定 变 量 是 数字 类 型 还 是 字符 串 类 型 。 
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1. 局 部 变量 

Shell 编程 中 ， 使 用 局 部 变量 无 须 事先 声明 ， 同 时 变量 名 的 命名 须 遵循 如 下 规则 ; 
。 首 个 字符 必须 为 字母 〈a 一 z，A 一 Z)。 

。 中 间 不 能 有 空格 ， 可 以 使 用 下 画 线 C D. 

。 不 能 使 用 标点 符号 。 

。 不 能 使 用 bash 中 的 关键 字 ( 可 以 用 help 命令 查看 保留 关键 字 )。 

2 局 部 变量 赋值 

变量 赋值 的 格式 : 


变量 名 = 值 


访问 变量 值 ， 取 用 一 个 变量 的 值 ， 只 需 在 变量 名 前 面 加 一 个 $。 

示例 如 下 : 

#!/bin/bash 

# 对 变量 赋值 : 

a-"hello world" # 等 号 两 边 均 不 能 有 空格 存在 

# 打印 变量 a 的 值 : 

echo -e "A is: $a\n" 

f&ik: bash 中 变量 赋值 ， 等 号 两 边 均 不 能 有 空格 存在 。 

可 以 使 用 自己 喜欢 的 编辑 器 ， 输 入 上 述 内 容 ， 并 保存 为 文件 test_hello bsh， 然 后 执行 
chmod +x test hello.bsh 使 其 上 有 执行 权限 ,最 后 输入 “./test_hello” 或 “bash test hello.bsh” 
执行 该 脚本 。 

程序 运行 结果 : 


A is: hello world 
有 时 候 变 量 名 可 能 会 和 其 他 文字 混淆 ， 例 如 : 


num=1 

echo "this is the $numst" 

上 述 脚本 并 不 会 输出 "this is the 1st" 而 是 "this is the "， 这 是 由 于 Shel1 会 去 搜索 变量 
numst 的 值 ， 而 实际 上 这 个 变量 并 未 赋值 ， 可 以 用 大 括号 来 告诉 shell 把 num 变量 跟 其 他 部 分 
分 开 。num=1 


echo "this is the ${num}st" 
程序 运行 结果 : 
this is the 1st 

3.1.3 Shell 传递 参数 


关于 Shell 传递 参数 的 讲解 视频 可 扫描 二 维 码 观看 。 
1. 普通 字符 
可 以 在 执行 Shell 脚本 时 ， 向 脚本 传递 参数 ， 脚 本 内 获取 参数 的 格式 为 Sn。n 代表 一 个 


数据 ，n=1 为 执行 脚本 的 第 一 个 参数 ，n-2 为 执行 脚本 的 第 二 个 参数 ， 以 此 类 推 。 
示例 如 下 : 以 下 代码 向 脚本 传递 三 个 参数 ， 并 分 别 输出 。 


#!/bin/bash 

echo “Shel11 传 递 参 数 实例 !”: 
echo “第 一 个 参数 为 $1”; 
echo “第 二 个 参数 为 $92”; 
echo “第 三 个 参数 为 $3”; 


为 脚本 设置 可 执行 权限 后 ， 并 执行 脚本 ， 输 出 结果 如 下 所 示 


[root@localhost ~]# chmod u+x test.sh 
[root@localhost ~]# ./test.sh 1 8 89 


打印 结果 : 


Shel1 传 递 参 数 实例 ! 
第 一 个 参数 为 : 1 
第 二 个 参数 为 : 8 
第 三 个 参数 为 : 89 


2. 字符 
徐 普 通 字符 外 ， 还 有 一 些 特殊 字符 可 以 用 来 处 理 参 数 ， 如 表 3.1 所 示 。 


表 3.1 
参数 说 明 
si 传递 到 脚本 的 参数 个 数 
$* 以 一 个 单字 符 串 显示 所 有 向 脚本 传递 的 参数 
$$ 脚本 运行 的 当前 进程 个 号 
$! 后 台 运 行 的 最 后 一 个 进程 的 IJD 号 
s@ 与 $* 相 同 ， 但 是 使 用 时 加 引号 ， 并 在 引号 中 返回 每 个 参数 
$- 显示 Shell 使 用 的 当前 选项 ， 与 set 命令 功能 相同 
$? 显示 最 后 命令 的 退出 状态 。0 表示 没有 错误 ， 其 他 任何 值 表 明 有 错误 


示例 如 下 : 

#!/bin/bash 

echo “Shell1 传 递 参数 实例 !”; 
echo “第 一 个 参数 为 $1”; 


echo “参数 个 数 为 $#”; 
echo “传递 的 参数 作为 一 个 字符 串 显示 : $*”; 


为 脚本 设置 可 执行 权限 后 ， 并 执行 脚本 ， 输 出 结果 如 下 所 示 


[root@localhost ~]# chomod u+x test.sh 
[root@localhost ~]# ./test.sh 1 8 89 


打印 结果 : 


f$ 
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3.14 Shell 数组 


数组 中 可 以 存放 多 个 值 , 但 BASH Shell 只 支持 一 维 数据 , 初始 化 时 不 需要 定义 数据 大 
小 。 与 大 部 分 编程 语言 类 似 ， 数 据 元 素 的 下 标 是 由 0 开始 的 。 
(1) Shell 数组 用 括号 来 表示 ， 元 素 用 “空格 ”符号 分 隔 开 。 创 建 数组 的 语法 格式 如 下 : 


示例 如 下 : 


为 脚本 设置 可 执行 权限 后 ， 执 行 脚本 ， 输 出 结果 如 下 所 示 : 


打印 结果 : 


(3) 获取 数组 中 的 所 有 元 素 。 
使 用 “@” 或 “*” 可 以 获取 数组 中 的 所 有 元 素 。 
示例 如 下 : 


#!/bin/bash 
my array[0]=A 


my array[2]=B 
my array[3]=C 
my array[4]-D 
echo "数组 元 素 个 数 为 : $(my array[#])" 
echo "数组 元 素 个 数 为 : $ {my_array[@]}" 


为 脚本 设置 可 执行 权限 后 ， 执 行 脚本 ， 输 出 结果 如 下 所 示 : 


[root@localhost ~]# chomod u+x test.sh 
[root@localhost ~]# ./test.sh 


打印 结果 : 


数组 元 素 个 数 为 : ABCD 
数组 元 素 个 数 为 : ABCD 


(4) 获取 数组 的 长 度 

获取 数组 长 度 的 方法 与 获取 字符 串 长 度 的 方法 相同 , 均 可 使 用 “${# 变 量 [*]}” 或 “$ 傣 
变量 [@]} ”获取 。 

示例 如 下 : 

#!/bin/bash 

my array[0]=A 

my array[2]=B 

my array[3]=C 

my array[4]=D 

echo "数组 元 素 个 数 为 : ${#my_array[*]}" 

echo "数组 元 素 个 数 为 : ${#my_array[@]}" 


为 脚本 设置 可 执行 权限 后 ， 执 行 脚本 ， 输 出 结果 如 下 所 示 : 


[root@localhost ~]# chomod u+x test.sh 
[root@localhost ~]# ./test.sh 


打印 结果 : 


数组 元 素 个 数 为 : 4 
数组 元 素 个 数 为 : 4 


3.1.5 Shell 运算 符 
关于 Shell 运算 符 的 讲解 视频 可 扫描 二 维 码 观看 。 
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Shell 和 其 他 编程 语言 一 样 ， 支 持 多 种 运算 符 ， 包 括 : 

。 算术 运算 符 ; 

。 关系 运算 符 ; 

。 布尔 运算 符 ; 

。 字符 串 运算 符 ; 

。 文件 测试 运算 符 。 

原生 Shell BASH oe 但 是 可 以 通过 加 入 辅助 命令 来 实现 , 如 : awk 
和 expr， 其 中 baal 比较 常 

expr 是 一 pi 用 来 完成 表达 式 的 求 值 操作 。 例 如 “val='expr 2 + 2'”, 
执行 脚本 后 输出 结果 为 4。 注 意 ， 表 达 式 和 运算 符 之 间 要 有 空格 ,例如 “2+2” 是 错误 的 书 
写 格式 ， 必 须 写 成 “2+2”。 另 外 ， 完 整 的 表达 式 要 被 “''” 包 含 ， 这 个 符号 不 是 常用 的 单 
引号 ， 而 是 位 于 Esc 键 之 下 的 区 | 符号 。 

1， 算 术 运 算 符 

表 3.2 列 出 了 常用 的 算术 运算 符 ， 假 定 变量 a 为 5， 变量 b 为 10。 


表 3.2 
运算 符 WAA 举例 
十 加 法 ‘expr Sa + $b' 结 果 为 15 
- 减法 "expr Sb - $a' 结 果 为 5 
* 乘法 ‘expr Sb \* $a' 结 果 为 50 GER: 3e 5 HIYA RA 
杠 ， 才 能 实现 乘法 运算 ) 
/ 除法 "expr Sb / $a' 结 果 为 2 
% MA "expr Sb % $a' 结 果 为 0 
= 赋值 a=$b 将 变量 b 的 值 赋 给 a 
= 相等 : 相同 则 返回 true [Sa 一 Sb] 返回 false 
= 不 相等 : 不 相同 则 返回 true [Sa == $b] 返 回 true 
注意 ;条 件 表达 式 要 放 在 方 括号 之 间 ， 并 且 要 有 空格 ， 例 如 ，[$a==$b] 是 错误 的 ， 必 须 写 成 [$a — $b] 
示例 如 下 : 
#!/bin/bash 
a=5 
b=10 


val-'expr $a + Sb' 
echo "a #b:Sval" 
val-'expr Sb - Sa' 
echo "b - a:Sval" 
val-'expr $a \* $b' 
echo "a*b:$val" 
val-'expr Sb N $a' 
echo "a N b:$val" 


执行 脚本 后 ， 打 印 结果 如 下 : 


atb:15 


b-a:5 

a*b:50 

b\a:2 

2. 关系 运算 符 

关系 运算 符 只 支持 数字 ， 不 支持 字符 串 ， 除 非 字 符 串 的 值 是 数字 。 表 3.3 列 出 了 常 
的 关系 运算 符 ， 假 定 变量 a 为 5， 变 量 b 为 10。 

表 3.3 
GWA ”说明 举例 
-eq 检测 两 个 数 是 否 相等 ， 相 等 返回 true [Sa -eq Sb] 返回 false 
-ne 检测 两 个 数 是 否 相等 ， 不 相等 返回 true [Sa -ne Sb] 返回 true 
-gt 检测 左边 的 数 是 否 大 于 右边 的 ， 如 果 是 ， 则 返回 true [Sa -gt Sb] 返回 false 
-lt 检测 左边 的 数 是 否 小 于 右边 的 ， 如 果 是 ， 则 返回 true [Sa -lt Sb] 返回 true 
-ge 检测 左边 的 数 是 否 大 于 或 等 于 右边 的 ， 如 果 是 , 则 返回 true [Sa -ge $b] 返回 false 
-le 检测 左边 的 数 是 否 小 于 或 等 于 右边 的 ， 如 果 是 , 则 返回 true [Sa -le Sb] 返回 true 


示例 如 下 : 


#!/bin/bash 


a-5 
b-10 
if[Sa -eq Sb] 
then 
echo "a 不 等 于 b" 
etse 
echo "a 等 于 b" 
fi 
if[Sa -le $b] 
then 
echo "a 小 于 或 等 于 b" 
else 
echo "a 不 小 于 或 等 于 b" 
Br 
执行 脚本 后 ， 打 印 结果 如 下 : 
a 不 等 于 b 


a 小 于 或 等 于 b 
3. 布尔 运算 符 


表 3.4 
运算 符 说 明 举例 
! HZ, KRY true 则 返回 false, FURE true — [! false] 返 回 true 
-0 或 运算 ， 有 一 个 表达 式 为 tue， 则 返回 true [Sa -lt 20 —o $b -gt 100] 返回 true 
-a 与 运算 ， 两 个 表达 式 都 为 tue， 才 返回 true [Sa -lt 20 -a Sb -gt 100] 返回 false 


f 


E 
3 
= 


Hadoop+Spark AHER (RE) 


示例 如 下 : 
#!/bin/bash 
a=5 
b=10 
if[Sa -1t 20 -o $b -gt 100] 
then 
echo "执行 了 或 操作 " 
else 


echo "或 ， 操 作 失 败 " 


fat 
if[Sa -1t 20 -a Sb -gt 100] 
then 
echo "执行 了 并 且 操作 " 
else 
echo "并 且 ， 操 作 失 败 " 
fi 
执行 脚本 后 ， 打 印 结果 如 下 : 
执行 了 或 操作 
并 且 ， 操 作 失 败 


4. 字符 串 运 算 符 
X 3.5 列 出 了 常用 的 字符 串 运 算 符 ， 假 定 变量 a 为 “abc”， 变 量 b 为 “efg”。 


表 3.5 
运算 符 说 明 举例 
= 检测 两 个 字符 串 是 否 相等 ， 相 等 返回 true [Sa = Sb] 返回 false 
二 检测 两 个 字符 串 是 否 相 等 ， 不 相等 返回 true [Sa !=$b] 返回 true 
-z 检测 字符 串 长 度 是 否 为 0， 为 0 返回 true [-z Sa] 返回 false 
-n 检测 字符 串 长 度 是 否 为 0， 不 为 0 返回 true [-n Sa] 返回 true 
str 检测 字符 中 是 否 为 空 ， 不 为 空 返回 true [str Sa] 返回 true 


示例 如 下 : 


#!/bin/bash 
a-"abc" 
b-"efg" 
if[$a - $b] 
then 

echo "两 个 字符 串 相 等 " 
else 

echo "两 个 字符 串 不 相等 " 
iffstr Sal 
then 

echo "字符 串 不 为 空 " 
else 


echo "字符 串 是 空 的" 


fi 
执行 脚本 后 ， 打 印 结果 如 下 : 


两 个 字符 串 不 相等 
字符 串 不 为 空 


5. 文件 测试 运算 符 
文件 测试 运算 符 如 表 3.6 所 示 。 


表 3.6 

POB 说 明 举例 

-b 检测 文件 是 否 是 块 设备 文件 ， 如 果 是 ， 则 返回 true [-b Sfile] 
-c 检测 文件 是 否 是 字符 设备 文件 ， 如 果 是 ， 则 返回 true [c $file] 
-d 检测 文件 是 否 是 目录 ， 如 果 是 ， 则 返回 true [-d Sfile] 
-f 检测 文件 是 否 是 普通 文件 ， 如 果 是 ， 则 返回 true [-fSfile] 
-g 检测 文件 是 否 设置 了 SGID 位 ， 如 果 是 ， 则 返回 true [-g $file] 
-k 检测 文件 是 否 设 置 了 sticky bit， 如 果 是 ， 则 返回 true [-k $file] 
-p 检测 文件 是 否 是 管理 ， 如 果 是 ， 则 返回 true [-p $file] 
a 检测 文件 是 否 设 置 了 SUID 位 ， 如 果 是 ， 则 返回 true [-u Sfile] 
-r 检测 文件 是 否 可 读 ， 如 果 是 ， 则 返回 true [-r $file] 
-w 检测 文件 是 否 可 写 ， 如 果 是 ， 则 返回 true [-w $file] 
x 检测 文件 是 否 可 执行 ， 如 果 是 ， 则 返回 true Ex Sfile] 
-s 检测 文件 是 否 为 空 ， 不 为 空 返回 true [-s $file] 
-e 检测 文件 是 否 存在 ， 如 果 是 ， 则 返回 true [-e $file] 


3.1.6 Shell echo 命令 


Shell 的 echo 指令 与 PHP 的 echo 指令 类 似 ， 都 是 用 于 字符 串 的 输出 。 
语法 格式 : 


echo "string" 


echo 的 使 用 如 下 。 
1. 显示 普通 字符 串 


echo "www.bunfly.com" 
这 里 的 双 引号 可 以 省 略 ， 以 下 命令 与 上 面 实例 效果 一 致 : 
echo www.bunfly.com 

执行 后 打印 结果 如 下 : 

www.bunfly.com 


2. 显示 转 义 字符 
通过 \\ 实现 转 义 ， 示 例如 下 : 
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echo "\"www.bunfly.com"\" 

执行 后 打印 结果 如 下 : 

"www.bunfly.com" 

3. 显示 变量 

read 命令 从 标准 输入 中 读 取 一 行 ， 并 把 输入 行 的 每 个 字段 的 值 指 定 给 Shell 变量 。 


#!/bin/sh 
read name 
eche "$name www.bunfly.com" 


以 上 代码 保存 为 test.sh，name 接收 标准 输入 的 变量 ， 结 果 如 下 : 


[root@localhost ~]# sh test.sh 
[root@localhost ~]# we http is 
[root@localhost ~]# we http is www.bunfly.com 


4. 显示 换行 


echo -e "www.bunfly.com! \n" 
echo "It is a test" 


执行 后 打印 结果 如 下 : 


www.bunfly.com! 
It is a test 


其 中 “-e” 的 作用 是 开启 转 义 ， 并 换行 。 
S， 显 示 不 换行 


echo -e "www.bunfly.com! \c" 
echo “It is a test" 


执行 后 打印 结果 如 下 : 
www.bunfly.com!It is a test 


其 中 “-e” 的 作用 是 开启 转 义 ， 但 不 换行 。 
6. 显示 结果 重 定向 至 文件 


echo "www.bunfly.com!" > myfile 


“>” 是 把 echo 的 内 容 通过 覆盖 的 方式 传 到 myfile 文件 中 ， 而 “>>” 是 通过 追加 的 方 
式 把 echo 的 内 容 传 到 myfile 文件 中 。 

7. 原样 输出 字符 串 

如 果 不 进行 转 义 或 取 变量 ， 则 可 以 使 用 单 引号 。 示 例如 下 : 


echo '$name\" ' 


输出 结果 : 
[root@localhost ~]# $name\" 


8. 显示 命令 执行 结果 
显示 当前 时 间 ， 可 以 用 反 引 号 “"”。 示 例如 下 : 


echo 'date' 
输出 结果 : 


[root@localhost ~]# Thu Jul 24 08:03:23 CST 2017 


3.1.7 Shell printf 命令 


printf 是 Shell 中 的 输出 命令 ， 类 似 Java 中 的 print(). printf 使 用 可 以 引用 文本 或 空格 
分 隔 的 参数 ， 外 面 可 以 在 printf 中 使 用 格式 化 字符 串 ， 还 可 以 指定 字符 串 的 宽度 、 左 右 对 
齐 方式 等 。 默 认 printf 不 会 像 echo 自动 添加 换行 符 ， 可 以 手动 添加 “m” 符 号 达到 换行 目的 。 
语法 格式 : 


printf format-string [arguments] 


选项 或 参数 : 

。 format-string: 为 格式 控制 字符 串 。 
* arguments: 为 参数 列表 。 
示例 如 下 : 


[root@localhost ~]# echo "Hello, Shell" 
Hello, Shell 

[root@localhost ~]#printf "Hello, Shell" 
Hell, Shell [root@localhost ~]# 


printf 还 可 以 通过 格式 替代 符 进行 赋值 。 
示例 如 下 : 


#!/bin/bash 

printf "$-10s $-8s $-4s \n" 姓名 性 别 体重 
printf "$-10s $-8s $-4s An" 张 三 $ 70 
printf "%-10s $-8s $-4s \n" 李 四 女 50 
printf "$-10s $-8s $-4s An" FZ $ 80 


执行 脚本 ， 输 出 结果 如 下 : 


姓名 性 别 体重 

k= $ 70 

本 四 k 50 第 

FS B 80 3 
* 
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上 述 示例 中 的 “%-10s”“%-8s”“9%-4s” 都 是 格式 替代 符 。 其 中 “%-10s” 表 示 字 符 宽 
FEA 10 个 字符 ， 任 何 字符 都 会 被 显示 在 10 个 字符 宽 的 字符 内 ， 如 果 不 足 则 自动 以 空格 填 
充 ， 超 过 也 会 将 内 容 全 部 显示 出 来 。“\n” 表 示 换 行 符 ， 将 逐 行 显示 数据 。 
printf 的 转 义 符 如 表 3.7 所 示 。 


表 3.7 
转 义 符 说 明 
la 警告 字符 
\b 后 退 
NG 不 显示 输出 结果 中 任何 结尾 的 换行 字符 ， 而 且 ， 任 何 留 在 参数 中 的 字符 、 任 何 接 下 
来 的 参数 以 及 任何 留 在 格式 字符 串 中 的 字符 都 被 忽略 
Y 换 页 
\n 换行 
回 车 
\t 空格 
W FARKE 
\\ 一 个 字面 上 的 反 斜 杠 字 符 
\ddd 表示 1 一 3 位 数 八进制 值 的 字符 ， 只 在 格式 字符 串 中 有 效 
\Oddd 表示 1 一 3 位 的 八进制 值 字符 


3.1.8 Shell test 命令 


Shell 中 的 test 命令 是 用 于 检查 某 个 条 件 是 否 成 立 的 ， 它 可 以 进行 数值 、 字 符 和 文件 三 
个 方面 的 测试 。 


1 数值 测试 
表 3.8 给 出 了 数值 测试 的 参数 。 
表 3.8 
参数 说 明 
aq 等 于 则 为 丰 
-ne 不 等 于 则 为 真 
at 大 于 则 为 真 
大 于 或 等 于 则 为 真 
-lt 小 于 则 为 真 
-le 小 于 或 等 于 则 为 真 
示例 如 下 : 
numl=100 
num2=100 
if test $[num1] -eq $[num2] 
then 
echo “两 个 数 相等 ! " 
else 


echo “两 个 数 不 相 等 ! " 


fi 

输出 结果 : 

两 个 数 相 等 ! 

代码 中 可 以 在 “S$[ ]” 中 执行 基本 的 算术 运算 ， 如 : 


#!/bin/bash 

a=5 

b=6 

result=$[atb] # 注 意 等 号 两 边 不 能 有 空格 
echo "result 为 : $result" 


输出 结果 : 
result 为 : 11 
2. 字符 测试 
表 3.9 给 出 了 字符 测试 的 参数 。 
表 3.9 
参数 说 明 
= 等 于 则 为 真 
= 不 相等 则 为 真 
-z 字符 串 的 长 度 为 零 则 为 真 
a : 长 度 不 为 零 则 为 真 
示例 如 下 : 


numi-"rulnoob" 
num2="runoob" 
if test Snuml = $num2 
then 

echo ' 两 个 字符 申 相 等 !' 
else 

echo ' 两 个 字符 串 不 相等 !' 
fr 


输出 结果 : 
两 个 字符 串 不 相等 ! 


3. 文件 测试 
表 3.10 给 出 了 文件 测试 的 参数 。 


表 3.10 
参数 说 明 


-e 如 果 文 件 存 在 ， 则 为 真 
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续 表 

参数 说 明 
工 如 果 文 件 存在 且 可 读 ， 则 为 真 
-w 如 果 文 件 存在 且 可 写 ， 则 为 真 
-x 如 果 文 件 存在 且 可 执行 ， 则 为 真 
-s 如 果 文 件 存在 且 至 少 有 一 个 字符 ， 则 为 真 
-d 如 果 文 件 存在 且 为 目录 ， 则 为 真 
-f 如 果 文 件 存在 且 为 普通 文件 ， 则 为 真 
-c 如 果 文 件 存在 且 为 字符 型 特殊 文件 ， 则 为 真 
-b 如 果 文 件 存在 且 为 块 特殊 文件 ， 则 为 真 

示例 如 下 : 

cd /bin 

if test -e ./bash 

then 

echo ' 文 件 已 存在 !' 
else 


echo ' 文 件 不 存在 !' 
fi 
输出 结果 : 
文件 已 存在 ! 
另外 ，Shell 还 提供 了 “-a”-o”“!” 三 个 逻辑 操作 符 用 于 将 测试 条 件 连 接 起 来 ， 其 优 
先 级 为 :“!” 一 “-a” 一 “-0”。 
示例 如 下 : 


cd /bin 
if test -e ./notFile -o -e ./bash 
then 
echo ' 有 一 个 文件 存在 !' 
else 


echo ' 两 个 文件 都 不 存在 !' 
in 


输出 结果 : 
有 一 个 文件 存在 ! 


3.1.9 Shell 流程 控制 


关于 Shell 流程 控制 的 讲解 视频 可 扫描 二 维 码 观看 。 EF 
Shell 的 流程 控制 和 Java, PHP 等 语言 的 流程 控制 有 一 定 区 别 ，Shell jy EY 
流程 控制 不 可 为 空 ， 而 Java 或 PHP 语言 的 流程 控制 中 可 以 为 室 ， 以 Java 语言 为 例 ， 其 中 


Java 语言 的 流程 控制 可 以 用 如 下 写法 : 


但 在 Shell 中 不 能 这 么 写 ， 如 果 else 分 支 没 有 语句 执行 ， 就 不 用 写 这 个 else。 
1. if else 
让 语法 格式 如 下 : 


如 果 写 成 一 行 ， 则 需要 加 “;” 符 ， 用 于 区 分 ， 并 且 以 if Pea, VA fi Hive. Shell 语法 
中 大 多 数据 控制 语句 都 是 以 特定 单词 开始 ,以 特定 单词 倒序 收尾 , 例如 , iffi, case---esac 等 。 


if else 语法 格式 如 下 : 


ifelse…if else 语法 格式 如 下 : 
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以 下 示例 判断 两 个 变量 是 否 相等 : 


2. for 循环 
for 循环 是 Shell 程序 设计 中 最 有 用 的 循环 语句 之 一 ， 一 个 for 循环 可 以 用 来 重复 执行 
某 条 语句 ， 直 到 某 个 条 件 得 到 满足 。for 语法 格式 如 下 : 


写成 一 行 : 


当 变 量 值 在 列表 里 , for 循环 即 执行 一 次 所 有 命令 , 使 用 变量 名 获取 列表 中 的 当前 取 值 。 
命令 可 为 任何 有 效 的 Shell 命令 和 语句 。in 列表 可 以 包含 奉 换 、 字 符 串 和 文件 名 。 

in 列表 是 可 选 的 ， 如 果 不 用 它 ， 则 for 循环 使 用 命令 行 的 位 置 参数 。 例 如 ， 顺 序 输出 
当前 列表 中 的 数字 : 


输出 结果 : 


顺序 输出 字符 串 中 的 字符 : 


输出 结果 : 
| This is a string 000000 


3. while 语句 
while 语句 也 称 条 件 判断 语句 , 它 的 循环 方式 为 利用 一 个 条 件 来 控制 是 否 要 继续 反复 执 
行 这 个 语句 。 语 法 格式 如 下 : 


以 下 是 一 个 基本 的 while 循环 ,测试 条 件 是 ， 如果 int 小 于 等 于 5， 那么 条 件 返 回 真 ; 
int 从 0 开始 ， 每 次 循环 处 理 时 ，int 加 1; 运行 以 上 脚本 ,返回 数字 1 到 5， 然 后 终止 。 


运行 脚本 ， 输 出 : 


代码 中 使 用 了 Shell 的 let MG, 它 用 于 执行 一 个 或 多 个 表达 式 , 变量 计算 中 不 需要 加 
上 $ 来 表示 变量 。 

while 循环 可 用 于 读 取 键盘 信息 。 下 面 例子 中 ， 输 入 的 信息 被 设置 为 变量 FILM， 按 
Ctrl+D 组 合 键 结束 循环 。 
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运行 脚本 ， 输 出 如 下 结果 : 


4. 无 限 循环 
while…do 循环 语句 与 while 语句 类 似 ，while 是 先 判断 是 否 为 真 ， 如 果 为 真 ， 则 执行 
语句 。 语 法 格式 如 下 : 


5. until 循环 

until 循环 执行 一 系列 命令 直至 条 件 为 真 时 停止 。until 循环 与 while 循环 在 处 理 方式 上 
相反 ， 一 般 while 循环 优 于 until 循环 ， 但 在 某 些 极 少数 情况 下 ，until 循环 更 加 有 用 。 

until 语法 格式 如 下 : 


条 件 可 为 任意 测试 条 件 ， 测 试 发 生 在 循环 末尾 ， 因 此 循环 至 少 执行 一 次 。 

6. case 语句 

Shell case 语句 为 多 分 支 语句 ， 表 达 式 的 值 必须 是 整 型 、 字 符 型 或 字符 串 类 型 ，case i 
句 首先 计算 表达 式 的 值 ， 如 果 表 达 式 的 值 和 某 个 “)” 符 号 前 的 值 一 致 ， 则 执行 后 面 语句 。 
例如 ， 下 面 代码 中 value 为 1， 则 执行 D 后 面 的 语句 。 

case 语法 格式 如 下 : 


case 工作 方式 如 上 例 所 示 ， 取 值 后 边 必须 为 单词 m， 每 一 选项 必须 以 “)” 括 号 结束 ， 
取 值 可 以 为 变量 或 常数 ， 匹 配 发 现 取 值 符合 某 一 选项 后 ， 其 间 所 有 命令 开始 执行 到 “;;”。 

取 值 将 会 检测 匹配 的 每 一 个 选项 ， 一 旦 选项 匹配 ， 则 执行 完 匹配 选项 相应 命令 后 不 再 
继续 其 他 选项 ， 如 果 无 一 匹配 选项 ， 则 使 用 “* ”捕获 该 值 ， 再 执行 后 面 的 命令 。 

下 面 的 脚本 提示 输入 1 到 4， 与 每 种 选项 进行 匹配 ， 如 果 匹 配 ， 则 执行 后 面 的 语句 。 


输入 不 同 的 内 容 ， 会 有 不 同 的 结果 。 例 如 ; 


7 跳出 循环 


在 循环 过 程 中 ， 有 时 候 需要 在 未 达到 循环 结束 条 件 时 强制 跳出 循环 ，Shell 使 用 两 个 命 
令 来 实现 该 功能 : break 和 continue. 
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1) break 命令 

break 命令 允许 跳出 所 有 循环 ， 并 会 终止 执行 后 面 的 所 有 循环 。 

下 面 的 例子 中 ， 脚 本 进入 死 循 环 直 至 用 户 输入 数字 大 于 5， 要 跳出 这 个 循环 ， 需 要 返 
回 到 Shell 提示 符 下 ， 使 用 break 命令 。 

示例 如 下 : 


执行 以 下 代码 ， 输 出 结果 为 : 


2) continue 命令 

continue 命令 与 break 命令 类 似 , 但 有 一 点 区 别 ， 当 执行 continue 命令 时 ， 结 束 本 次 循 
开始 下 一 次 循环 。 

示例 如 下 : 


3 


运行 代码 会 发 现 ， 当 输入 大 于 5 的 数字 时 ， 上 例 中 的 循环 不 会 结束 ， 语 句 “echo" 游 戏 
结束 "” 永 远 不 会 被 执行 。 
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关于 网 络 配置 的 讲解 视频 可 扫描 二 维 码 观看 。 

TE Linux 中 设置 网 络 的 相关 配置 均 需要 管理 员 权限 , 所 以 在 设置 网 络 配 
置 时 ， 需 要 先 把 用 户 切 换 到 root 用 户 ， 输 入 “su-lroot” 并 输入 root 密码 即 
可 切换 到 root 用 户 。 

1， 修 改 ifcfg-eth0 文件 

ifcfg-eth0 文件 在 /etc/sysconfig/network-scripts/ 目 录 中 ， 该 文件 存放 的 是 网 络 接口 的 脚 
本 文件 ，ifcfg-eth0 是 默认 的 第 一 个 网 络 接口 ， 如 果 机 器 中 有 多 网 络 接口 ， 那 么 名 字 就 将 以 
此 类 推 : ifcfg-ethl、ifcfe-eth2、ifcfg-eth3。 

ifcfg-eth0 中 的 文件 是 相当 重要 的 , 关系 到 网 络 能 否 正 常 工作 。ifcfg-eth0 中 的 设 定 参数 
如 表 3.11 所 示 。 


* 3.11 

项 目 设 定 值 说 明 

DEVICE Bae GRE. WE) 

USERCTL [yes | no] JE root 用 户 是 否 可 控制 该 设备 

BOOTPROTO [none] static | bootp | dhcp ] [ 引导 时 不 使 用 协议 | 静态 分 配 IP | bootp 协 
议 | 动态 协议 ] 

HWADDR MAC 地 址 

ONBOOT [yes | no ] 系统 启动 的 时 候 网 络 接口 是 否 有 效 

TYPE Ethemet 网 络 类 型 ， 通 常 是 Ethemet 

NETMASK 网 络 掩 码 

IPADDR IP Jib bl: 

IPVGINIT [yes | no] IPv6 Je fi fik 

GATEWAY 默认 网 关 IP 地 址 

BROADCAST 广播 地 址 

NETWORK 网 络 地 址 


配置 静态 IP 地 址 ， 示 例如 下 : 


DEVICE-eth0 

HWADDR-00:0C:29:70:75:0B 

TYPE-Ethernet 
UUID-ba418df8-78dc-496c-9240-907f£3851ac5e 
ONBOOT-yes 

NM CONTROLLED-yes 

BOOTPROTO-static 

IPADDR-192.168.2.100 

GATEWAY-192.168.2.1 

NETMASK-255.255.255.0 


f$ 


Hadoop*Spark ARIER (RE) 


其 中 ONBOOT 和 BOOTPROTO 参数 最 重要 ，ONBOOT 设置 是 否 开启 网 络 连接 ， 
BOOTPROTO 设置 获取 IP 的 方式 ， 本 文 是 将 虚拟 机 的 IP 地 址 设置 为 静态 地 址 (static). 


ONBOOT=yes 
BOOTPROTO=static 


插入 IP 地 址 、 掩 码 和 网 关 。 如 果 是 在 VMware 虚拟 平台 上 配置 网 络 ， 网 关 地 址 可 以 在 
VMware 平台 的 菜单 “编辑 ”一 “虚拟 网 络 编辑 器 ”一 VMnet8 一 “NAT 设置 ”中 查询 。 


IPADDR-192.168.1.100 
NETMASK-255.255.255.0 
GATEWAY-192.168.1.2 


配置 动态 IP 地 址 ， 示 例如 下 : 


DEVICE-eth0 

HWADDR-00:0C:29:70:75:0B 

TYPE-Ethernet 
UUID-ba418df8-78dc-496c-9240-907f3851ac5e 
ONBOOT-yes 

NM CONTROLLED-yes 

BOOTPROTO-dhcp 


设置 动态 他 要 比 设置 静态 IP 简单 得 多 ,只 需 修 改 ONBOOT 为 yes, 并 把 BOOTPROTO 
类 型 改 为 dhcp 即 可 。 

需要 注意 , 无 论 是 设置 动态 IP 还 是 设置 静态 IP, ifefg-ethO 中 的 DEVICE 和 HWADDR 
必须 与 /etc/udev/rules.d/70-persistent-netrules 最 后 一 条 一 致 。 

例如 ，/etc/udev/rules.d/70-persistent-net.rules 中 的 内 容 如 图 3.1 所 示 。 


[root@Master001 ~]# cat /etc/udev/rules.d/70-persistent-net.rules 
This file was automatically generated by the /lib/udev/write net rules 
program, run by the persistent-net-generator.rules rules file. 


You can modify it, as long as you keep each rule on a single 


# 
+ 
B 
+ 
# line, and change only the value of the NAME= key. 


# PCI device Ox8086:0x100f (e1000) 
ISUBSYSTEM=="net", ACTION=="add", DRIVERS--"2*", ArTR (address)=='00:0c:29:89:ba:09"] ATT 
R{type}=="1", KERNEL=="eth*", NRME 坏 etho"] 
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图 31 


ifcfg-ethO 中 的 DEVICE 应 该 为 “eth0”，HWADDR 应 该 为 “00:0c:29:89:ba:e8”。 

2. 修改 resolv.conf 文件 

resolv.conf 文件 是 DNS 域名 解析 的 配置 文件 。 它 的 格式 很 简单 ， 每 行 以 一 个 关键 字 开 
头 ， 后 面 接 配 置 参数 。 

resolv.conf 文件 的 关键 字 主要 有 4 个， 分别 如 下 。 

e nameserver: 定义 DNS 服务 器 的 卫 地 址 。 

* domain: 定义 本 地 域名 。 

e search: 定义 域名 的 搜索 列表 。 


e sortlist: 对 返回 的 域名 进行 排序 。 

设置 网 络 配置 主要 是 对 nameserver 关键 字 进 行 设 置 , 如 果 没 有 指定 nameserver 就 找 不 
到 DNS 服务 器 ， 也 就 不 能 连接 外 网 ， 但 其 他 关键 字 是 可 选 的 。 

配置 示例 如 下 : 


[root@localhost ~ ]# vi /etc/resolv.conf 


插入 如 下 : 
nameserver 192.168.1.2 # 自 己 的 网 关 地 址 


3. 重启 网 络 服务 

修改 了 IP 地 址 必须 要 重启 网 络 服务 或 者 重启 计算 机 才 会 生效 。 重 启 计算 机 命令 可 以 
使 用 reboot 也 可 使 用 init 6 等 其 他 命令 ， 重 启 网 络 服务 同样 也 有 多 种 命令 。 

方式 一 : 通过 restart 命令 重启 。 


service network restart 
方式 二 : 先 停止 再 启动 。 


service network stop 
service network start 


如 果 出 现 如 图 3.2 所 示 的 界面 ， 则 表示 重启 成 功 。 


EPOR T 
[root@Master001 ~]# service network restart 
正在 关闭 接口 etho: 

关闭 环 回 接口 : 

弹出 环 回 接口 : 

弹出 界面 eth0: 


[rooteMaster001 ~]# 


图 3.2 


4. 检查 IP 地 址 是 否 修改 成 功 
启动 网 络 服务 过 后 ， 可 以 通过 ifconfig 命令 查看 IP 地 址 ， 如果 IP 地 址 能 查 到 ,并 且 能 
正常 显示 ， 表 示 设 置 成 功 ， 如 图 3.3 所 示 。 


[root@Master001 ~]# 

[root@Master001 ~]# ifconfig 

etho Link encap:Ethernet HWaddr 00:0C:29:89:3A:E8 

inet addrf192.168.233.101| Bcast:192.168.233.255 Mask:255.255.255.0 
inet6 addr: fe80::20c:29ff:fe89:bae3/64 Scope:Link 

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:940 errors:0 dropped:0 overruns:0 frame:0 

TX packets:310 errors:0 dropped:0 overruns:0 carrier:0 

collisions:0 txqueuelen:1000 

RX bytes:86499 (84.4 KiB) TX bytes:34825 (34.0 KiB) 


lo Link encap:Local Loopback 
inet addr:127.0.0.1 Mask:255.0.0.0 
inet6 addr: ::1/128 Scope:Host 
UP LOOPBACK RUNNING MTU:16436 Metric:1 
RX packets:0 errors:0 dropped:0 overruns:0 frame:0 
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 


图 3.3 3 
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5. 验证 网 络 

ping 命令 是 用 于 验证 网 络 配置 是 否 成 功 的 最 好 方法 ， 可 以 用 ping www.baidu.com 去 验 
证 外 网 是 否 畅通 ， 也 可 以 用 ping 命令 去 ping 本 地 VMnet8 IP 检测 内 外 是 否 连通 。 需 要 注 
意 的 是 , ping 外 网 时 , 宿主 机 一 定 要 联网 ， 因 为 虚拟 机 使 用 的 是 与 宿主 机 共享 的 网 络 地 址 。 

用 ping 命令 测试 内 网 。 如 果 出 现下 面 情况 ， 则 说 明 连接 成 功 ， 可 以 使 用 Ctrl+C 组 合 
键 退出 测试 ， 如 图 3.4 所 示 。 


[root@Master001 ~]# ping 
PING 192.168.233.1 (192. 
64 bytes from 192.168.233.1: 
64 bytes from 192.168.233.1: icmp seq-2 tt1-128 time-0.467 ms 
64 bytes from 192.168.233.1: icmp seq-3 tt1-128 time-0.449 ms 
64 bytes From 192.168.233.1: icmp seq-4 tt1-128 time-0.492 ms 
c 


3.1) 56(84) bytes cf data. 
icmp seq-1 tt1-128 time-0.541 ms 


--- 192.160.233.1 nina statistics ——— 


图 34 


JH ping 命令 测试 外 网 .如 果 出 现 如 图 3.5 所 示 的 情况 , 则 说 明 连 接 成 功 ,可 以 使 用 CtrltC 
组 合 键 退出 测试 。 


-sr 
~]# ping www.baidu.com 

PING www.a.shifen.com (180.97.33.107) 56(84) bytes of data. 
64 bytes from 180.97.33.107: icmp seq-1 ttl=128 time-35.9 ms 
64 bytes from 180.97.33.107: icmp seq-2 ttl-128 time-44.5 ms 
64 bytes from 180.97.33.107: icmp seq-3 tt1-128 time-34.2 ms 
64 bytes from 180.97.33.107: icmp seq-4 tt1-128 time=39.4 ms 
64 bytes from 180.97.33.107: icmp seq-5 tt1-128 time-42.0 ms 


图 3.5 


3.3 ”习题 与 思考 


1. 尝试 在 Linux 中 编写 Shell 脚本 ， 打 印 出 “Hellow WWW.bunfly.com”。 
2. 尝试 在 Linux 中 编写 Shell 脚本 ， 使 用 脚本 程序 分 别 输出 两 个 整数 的 加 、 减 、 乘 、 
除 运 算 的 结果 。 


第 4 章 数据 库 操 作 


4.1 数据 库 简介 
4.1.1 MySQL 数据 库 简介 


关于 MySQL 数据 库 入 门 知识 的 讲解 视频 可 扫描 二 维 码 观看 。 E 

MySQL 是 一 种 关系 型 数据 库 管理 系统 , 由 瑞典 MySQL AB 公司 开发 , 目前 属于 Oracle 
旗下 产品 。MySQL 是 现在 最 流行 的 关系 型 数据 库 管 理 系 统 ， 在 Web 应 用 方面 MySQL 是 
最 好 的 RDBMS (Relational DataBase Management System， 关 系数 据 库 管理 系统 ) 应 用 软 
件 之 一 

MySQL 是 一 种 关联 数据 库 管 理 系统 。 关 联 数据 库 将 数据 保存 在 不 同 的 表 中 ， 而 不 是 
将 所 有 数据 放 在 一 个 “大 仓库 ” 内 ， 这 种 方式 增加 了 速度 并 提高 了 灵活 性 。 

MySQL 所 使 用 的 SQL 语言 是 用 于 访问 数据 库 的 最 常用 的 标准 化 语言 。MySQL 软件 采 
用 双 授 权 政 策 ， 分 为 社区 版 和 商业 版 。 由 于 其 体积 小 、 速 度 快 、 成 本 低 ， 尤 其 是 具有 开放 
源码 这 一 优势 ， 因 此 一 般 中 小 型 网 站 的 开发 都 选择 MySQL 作为 网 站 数据 库 。 

MySQL 为 关系 型 数据 库 ， 这 种 所 谓 的 “关系 型 ”可 以 理解 为 表格 的 概念 ， 一 个 关系 
数据 库 由 一 个 或 多 个 表格 组 成 ， 如 图 4.1 所 示 。 


主键 
i PET 
Gat | 张 = s 20 13959064893 
2 李 四 男 26 13709077993 
3 z= 男 25 
EIE sms 
— " 
5 KE 女 19 15000987776 
6 李 佳 林 女 20 
name 列 
图 41 


e KI (header): 每 一 列 的 名 称 。 
。 列 〈column): 具有 相同 数据 类 型 的 数据 的 集合 。 
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* ÍT Gow): 每 一 行 用 来 描述 某 个 人 或 物 的 具体 信息 。 

。 值 (value): 行 的 具体 信息 ， 每 个 值 必须 与 该 列 的 数据 类 型 相同 。 

e fit (key): 表 中 用 来 识别 某 个 特定 的 人 或 物 的 方法 , 键 的 值 在 当前 列 中 具有 唯一 性 。 

本 章 将 介绍 MySQL 在 Linux 环境 下 的 安装 和 配置 , 通过 介绍 MySQL 的 DDL. DML. 
DCL、DQL 的 常用 操作 来 了 解 MySQL 的 使 用 。 


412 安装 MySQL 


关于 安装 MySQL 的 讲解 视频 可 扫描 二 维 码 观看 。 

(1) 查看 Linux 系统 中 是 否 存在 自 带 数据 库 。 

ENER Linux 系统 自 带 MySQL 插件 ， 再 通过 yum 库 安 装 最 稳定 的 
MySQL 版 本 。 


[root@locahost 一 ]# rpm -qa | grep mysql <==rpm 命 令 查 看 软件 是 否 安装 
(2) ENZ Linux 系统 集成 的 MySQL 数据 库 。 
公 载 分 为 普通 模式 和 强力 模式 ， 强 力 模式 是 针对 提示 有 依赖 的 其 他 文件 时 使 用 。 


[root@locahost ~]# rpm -e mysql.xx.xx <== 普 通 删除 模式 
[root@locahost ~]# rpm -e --nodeps mysql.xx.xx <== 强 力 删除 模式 


G) 通过 yum 来 安装 MySQL。 


安装 前 ,可 以 通过 “yum list | grep mysql” 命 令 查看 yum 上 提供 与 MySQL 数据 库 相关 
的 软件 。 找 到 mysql-server、mysql、mysql-devel 安装 包 进 行 安装 。 


[root@locahost ~]#yum list | grep mysql <== 查 看 yum 上 的 程序 
[root@locahost ~]#yum install -y mysql-server <==MySQL-server 
[root@locahost ~]#yum install -y mysql <== 安 装 MySQL 
[root@locahost ~]#yum install -y mysql-devel <== 安 装 MySQL-devel 


(4) 验证 MySQL 是 否 安装 成 功 。 使 用 “rpm -qi mysql-server” 命 令 ， 
如 果 出 现 MySQL 版 本 等 信息 ， 则 表示 MySQL 安装 成 功 。 


[root@locahost ~]# rpm -qi mysql-server 
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4.2.1 MySQL 的 DDL 操作 


关于 MySQL 的 DDL 操作 讲解 视频 可 扫描 二 维 码 观看 。 

MySQL DDL 是 数据 定义 语言 ， 即 用 来 定义 数据 库 对 象 ， 如 库 、 表 、 列 
等 ， 简 单 说 就 是 对 数据 库 内 部 的 对 象 进行 创建 (create)、 修 改 〈alter)、 删 
BR (drop) 的 操作 语言 。 


1. 操作 数据 库 

1) create 关键 字 

create 关键 字 是 MySQL 中 最 常用 的 关键 字 之 一 ， 它 可 以 在 MySQL 中 创建 数据 库 ， 也 
可 以 在 数据 库 中 创建 表 。 

语法 : 


create database databasename 


示例 如 下 : 
(1) 创建 一 个 数据 库 ， 数 据 库 名 字 为 mydb1。 


mysql» create database mydbl; 

(2) 创建 一 个 数据 库 ， 数 据 库 名 字 为 mydb2， 并 且 指 定数 据 库 中 的 字符 集 为 utf8。 
mysql> create database mydb2 character set utf8; 

2) 查询 

(1) 查看 当前 数据 库 服 务 器 中 的 所 有 数据 库 。 

mysql> show databases; 


通过 show databases 命令 将 查询 出 MySQL 下 的 所 有 数据 库 ， 包 括 之 前 创建 的 mydb1 
和 mydb2 数据 库 ， 查 询 结果 如 图 4.2 所 示 。 


Imysql> show databases; 


(2) 查看 之 前 创建 的 mydb2 数据 库 的 定义 信息 。 
mysql> show create database mydb2; 


通过 show create database mydb2 命令 可 以 查询 出 指定 的 mydb2 数据 库 的 定义 信息 , 查 
询 结果 如 图 4.3 所 示 。 


mysql» show create database mydb2; 


4---------- 4$----------------------------------------------------------------; + 
| Database | Create Database 1 
4---------- 于 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| mydb2 | CREATE DATABASE ‘mydb2* /*!40100 DEFAULT CHARACTER SET utf8 */ | 
M---------- +---------------------------------------------------------------- 十 


1 row in set (0.00 sec) 


图 4.3 
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3) 修改 

通过 alter 关键 字 可 以 修改 数据 库 的 定义 信息 。 以 mydb2 数据 库 为 例 ， 之 前 在 MySQL 
中 创建 了 mydb2 数据 库 ， 并 且 给 它 指定 字符 集 为 ut 人 8， 可 以 通过 alter 将 mydb2 数据 库 的 
字符 集 修改 为 gbk。 


mysql> alter database mydb2 character set gbk, 


执行 alter database mydb2 character set gbk 代码 后 ，mydb2 的 字符 集 已 经 从 之 前 的 utf8 
改 成 了 gbk， 如 图 4.4 所 示 。 


mysql> show create database mydb2; 


1 row in set (0.00 sec) 


mysai[ alter database mydb2 character set gbk; 
Query , i row affected (0.00 sec) 


mysql» show create database mydb2; 
M---------- Pr nnn nnn nnn nnn nnn nn nnn + 
| Database | Create Database 


| CREATE DATABASE ‘mydb2* 
M---------- 4------------------------- 
1 row in set (0.00 sec) 


4) 删除 

可 以 通过 drop 关键 字 删 除 指定 数据 库 。 如 果 出 现 “Query OK, 0 rows affected (0.00 
sec)”， 则 表示 删除 成 功 ， 如 图 4.5 所 示 。 

5) 其 他 

select 关键 字 可 以 用 于 查看 数据 库 的 使 用 状态 ， 如 图 4.6 所 示 。 

如 果 需 要 切换 到 其 他 数据 库 ， 则 可 以 使 用 use 关键 字 来 实现 ， 如 图 4.7 所 示 。 


| NULL 1 
1» d databi 'db2; pE———————ÀÁáÀ * ; 
mary ext bum a (0.00 sec) 1 row in set (0.00 sec) PB aa 
图 45 图 46 图 47 
2. 操作 数据 表 
(1) 在 create 关键 字 后 面 加 上 table 参数 ， 表 示 创 建 表 语 句 。 
语法 : 


create table tablename ( 
columnl type, 


column? type, 


columnN type 
) 


MySQL 创建 表 时 可 以 创建 多 个 列 ， 每 个 列 都 有 一 个 数据 类 型 ， 这 些 数据 类 型 用 来 描 
述 列 中 值 的 内 容 。 常 用 的 数据 类 型 如 表 4.1 所 示 。 


表 41 
类 型 


int 
double 
char 
varchar 
text 
blob 
date Bb yyyy-MM-dd 

time 时 间 类 型 hh:mm:ss 

timestamp Wy fe) RAY yyyy-MM-dd hh:mm:ss 会 自动 赋值 
datatime 日 期 时 间 类 型 yyyy-MM-dd hh:mm:ss 


示例 如 下 , 在 mydbl 数据 库 中 创建 一 张 student 表 , 其 中 有 id, name, chinese, english, 
math 五 个 字段 ， 每 个 字段 类 型 分 别 是 整数 类 型 、 字 符 串 类 型 和 双 浮 点 数 类 型 。 


create table mydbl.student ( 
td iot; 
name varchar (20), 
chinese double, 
english double, 
math double 

Ji 


(2) 插入 数据 可 以 使 用 insert into 关键 字 来 实现 ， 如 果 需 要 插入 多 条 数据 ， 则 需要 在 
每 条 语句 之 间 用 “:;” 符 号 分 隔 。 
语法 : 


insert into talbename (columnl,column2,..) values (valuel, value2,..) 


列 名 的 名 称 与 插入 值 需要 一 一 对 应 (columl=valuel)， 如 果 需 要 全 表 插 入 ， 字 段 名 可 
以 省 略 ， 值 必须 按照 建 表 时 的 顺序 插入 。 
示例 如 下 ， 在 这 里 插入 了 7 条 语句 ， 每 条 语句 用 “:” 隔 开 。 


insert into mydbl.student (id,name,chinese,english,math) values(1,'#k=', 
78.8,98,66); 

insert into mydbl.student (id,name,chinese,english,math) values(2,' 李 四 '， 
88.5,68,96); 4 
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insert into mydbl.student (id, name, chinese, english,math) values(3,' EWI ', 
98,96,96); 
insert into mydbl.student (id,name,chinese,english,math) values(4,'ik#', 
78,68,66); 
insert into mydbl.student (id, name, chinese, english,math) values (5,' 李强 强 '， 
76,88,86); 
insert into mydbl.student (id, name, chinese, english,math) values(6,'PRH', 
58,48,36); 
insert into mydbl.student (id,name,chinese,english,math) values (7,' 刘 星 '， 
88,85,86); 


或 者 


insert into mydbl.student (id, name, chinese, english, math) 
values (8, ' 王 顾 ', 98,85,96), 
(9, ' 赵 宇 ', 88,75,76)， 
(10, "EXZ',68,95,76), 
(11, ' 张 健 任 ' , 78,95,86); 


通过 select * from mydbl.student 语句 可 以 查询 上 述 例子 中 插入 的 数据 内 容 ， 从 结果 可 
以 看 出 上 面 执行 的 两 种 方式 都 可 以 插入 数据 ， 如 图 4.8 所 示 。 
(3) 查询 当前 数据 库 中 的 所 有 表 。 
前 面 介绍 了 查询 数据 库 的 语句 ， 这 里 将 对 查询 数据 库 中 的 表 进 行 曾 述 。 
可 以 通过 “mysql> use database ”语句 进入 要 查询 的 数据 库 ，, 然后 再 执行 “mysql> show 
tables” 语 句 显示 该 数据 库 中 的 所 有 表 ， 如 图 4.9 所 示 。 
mysql> select * from mydbl.student; 


4------ 4----------- pu +--------- 4------ * 
hinese | english | math | 


I 11 78.8 | 98 | 661 

1 21 88.5 | 68 | 961 

| 3 1 98 | 96 | 961 

I 41 78 | 68 | 66 | 

| 51 76 1 88 | 86 | mysql> use mydbi; 

I 61 58 | 48 | 36 | Database changed 

| 71 88 | 85 1 86 | mysql> show tables; 

l 81 98 | 851 961 村 

1 91 88 | 75 | 761 | Tables in mydbi | 

| 101 68 | 95| 761 Naga PRAAN 十 

| iig 张 健 任 | 78 | 95 1 86] | student 1 

eere qu d pe 4------ 十 punt T 

11 rows in set (0.00 sec) 1 row in set (0.00 sec) 
图 4.8 图 49 


(4) 查看 表 的 字段 信息 。 

desc tablename 语句 可 以 用 来 查询 表 字 段 的 详细 信息 ， 如 图 4.10 所 示 。 

(5) 给 表 添 加 一 列 。 

假如 在 使 用 的 过 程 中 发 现 student 表 中 缺少 age 列 ， 则 可 以 使 用 alter…add 关键 字 ， 给 


student 表 添 加 一 列 ， 列 名 为 age， 类 型 为 字符 串 类 型 varchar， 如 图 4.11 所 示 。 


(6) 修改 列 。 


mysql> desc mydbl.student; 


= 


| Type | Null | Key | Default | Extra | 

二 -一 一 -一 一 -一 一 一 一 一 一 4------ 4----- 4--------- 4------- * 
1 | int(11) | YES | | NULL 1 l 
| name | varchar(20) | YES | | NULL 1 l 
1 chinese | double 1 YES | | NULL 1 | 
| english | double | YES | | NULL | | 
| math | double | YES | | NULL 1 1 
M--------- 4------------- Fu 4----- 4--------- 4------- * 
5 rows in set (0.00 sec) 

图 410 


mysql? [alter table mydbl.student add age varchar(5); 
Query OK, 11 rows affected (0.01 sec) 
Records: 11 Duplicates: 0 Warnings: 0 


mysql> desc mydbi.student; 
+ 


AG err ee aaa id 
| Field | Type | Null | Key | Default | Extra | 
amat O O AA a dg dM ama E 
1 id 1 int(11) 1 YES | 1 NULL 1 1 
| name | varchar(20) | YES | | NULL 1 1 
1 chinese | double | YES | | NULL 1 1 
| english | double | YES | 1 NULL 1 1 
1 math 1 double | YES | | NULL 1 1 
| [age T varchar (5) | YES T T NULL] | 1 
M--------- 4------------- 4------ 4----- 4--------- +-------. + 
6 rows in set (0.00 sec) 
图 4.11 


通过 词 意 得 知 age 是 年 龄 ， 而 年 龄 是 以 整数 形式 出 现 的 ， 这 里 的 age 使 用 的 却 是 字符 
串 类 型 ， 不 符合 类 型 规范 ， 如 果 要 修改 列 的 属性 ， 可 以 使 用 alter…modify 关键 字 将 age 字 
段 的 varchar 类 型 修改 为 int KAL. 


语法 : 


alter table tablename modify column type 


示例 如 图 4.12 所 示 。 


Imysql> alter table mydbi.student modify age int; 


Query OK, II rows affected (U.UZ sec) 
Records: 11 Duplicates: 0 Warnings: 0 


mysql> desc mydbi. student, 


int (11) 


| 1 1 1 1 
name | varchar (20) | YES | | NULL 1 
chinese | double | YES | | NULL 1 
english | double | Yes | | NULL 1 
math | double | YES | | NULL 1 
pge T int (11) T YES T T NULL T 
na A 
rows in set (0.01 sec) 

图 4.12 
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(7) 删除 列 。 
如 果 不 需 要 使 用 某 列 ， 则 可 以 用 alter…drop 关键 词 删除 这 一 列 。 
语法 : 


alter table tablename drop cloumn 


示例 如 图 4.13 所 示 。 


mysql>| alter table mydbl.student drop age; 
Query OK, 11 rows affected (0.02 sec) 
Records: 11 Duplicates: 0 Warnings: 0 


mysql> desc mydbi.student; 


H--------- 4------------- 4------ 4----- 4--------- 4------- * 
| Field | Type | Null | Key | Default | Extra | 
t--------- 一 一 一 一 一 地- 一 -一 一 4--———- {=== --————- * 
| id | int(11) | YES | | NULL 1 1 
| name | varchar (20) | YES | | NULL 1 1 
1 chinese | double | YES | | NULL 1 | 
| english | double | YES | | NULL 1 1 
| math | double | YES | | NULL l 1 
EE======== a $====== "maaya 了 ========= 了 ======= FI 
5 rows in set (0.01 sec) 
PA 4.13 


(8) 更 改 表 名 。 
将 student 表 的 名 字 重 命名 为 user_student， 可 以 使 用 rename table…to 关键 字 来 实现 ， 
示例 如 图 4.14 所 示 。 


mysql» show tables; 


| [student 1 
+- 
1 row in set (0.00 sec) 


mysql>| rename table mydbi.student to user student: 
Query OK, 0 rows affected (0.00 sec) 


mysql> show tables; 


4-- 
| Tables in mydbi | 
4----------------- 十 
| [user student 1 
+----------------- 十 


1 row in set (0.00 sec) 
图 4.14 


O) 修改 表 的 字符 集 。 
示例 如 图 4.15 所 示 。 
(10) 更 改 列 名 。 


alter table user student change name username varchar (20); 


* user student: 需要 修改 列 的 表 。 


* name: 需要 修改 的 列 名 。 
e username varchar(20): 新 的 列 名 和 类 型 。 
示例 如 图 4.16 所 示 。 


mysql alter table user student set gbk; 
[ERROR 1064 (42000): You have an error in your SQL syntax; 
londs to your MySQL server version for the right syntax to 
mysql> alter table user student character set gbk; 

Query OK, 11 rows affected (0.01 sec) 

Records: 11 Duplicates: 0 Warnings: 0 


mysql> show create table mydbl.user student; 


| Table | Create Table 


一 -+ 
| user student | CREATE TABLE "user student" ( 
“id! int(11) DEFAULT NULL, 
“name” varchar(20) CHARACTER SET latinl DEFAULT NULL, 
‘chinese’ double DEFAULT NULL, 
"english' double DEFAULT NULL, 
"math' double DEFAULT NULL 


图 4.15 
Imysql»|alter table user student change name user name varchar (20) ; 
Query , 11 rows affected, 11 warnings (0.02 sec) 
Records: 11 Duplicates: 0 Warnings: 0 
mysql> desc user student; 
t----------- fu 4---——— 二 一 一 一 一 一 和 -一 一 一 一 一 一 一 kua 十 
1 Field | Type | Null | Key | Default | Extra | 
4----------- 4------------- 4------ 4----- 4--------- 4------- 十 
| id | int(11) | YES | | NULL 1 1 
| [user name|| varchar(20) | YES | | NULL 1 1 
| chinese | double | YES | | NULL l 1 
| english | double | YES | | NULL 1 1 
1 math 1 double | YES | | NULL 1 1 
4----------- 4------------- 4------ 4----- 4--------- 4------- * 
5 rows in set (0.00 sec) 

图 416 


AD 添加 主键 约束 。 

表 中 的 每 一 行 都 应 该 具有 可 以 唯一 标识 自己 的 一 列 ， 而 这 个 承担 标识 作用 的 列 称 为 主 
键 。 如 果 没 有 主键 ， 则 数据 的 管理 会 十 分 混乱 ， 例 如 ， 若 存在 多 条 一 模 一 样 的 记录 ， 则 删 
除 和 修改 特定 行 十 分 困难 。 设 置 主键 可 以 使 用 alter table…add constraint primary key(…) 语 
fj, WHE id 列 设置 成 主键 。 


Hadoop+Spark ARIER (RE) 


mysql> alter table user student add constraint primary key(id); 


示例 如 图 4.17 所 示 。 


mysql>| alter table user student add constraint primary key (id); 
Query OK, 11 rows affected (0.01 sec 
Records: 11 Duplicates: 0 Warnings: 0 


mysql> desc user_student; 


二 一 一 一 一 一 一 一 一 一 一 一 ———-—— 于 一 一 一 一 一 一 ———— qM pA Rn * 
| Field | Type | Null | Key | Default | Extra | 
* * - * 
| id | int(11) | NO || PRT || O 1 1 
| user name | varchar(20) | YES | | NULL 1 1 
| chinese | double | YES. | | NULL 1 1 
1 english 1 double | YES | | NULL 1 1 
| math | double | YES | | NULL 1 1 
4----------- 4------------- Fu 4----- 4--------- 4------- * 
5 rows in set (0.00 sec 
图 417 


(12) WRK. 
mysql> drop table user student; 


示例 如 图 4.18 所 示 。 


iais 
mysql> drop table user_student; 
Query OK, 0 rows affected (0.00 sec 


mysql> show tables; 
Empty set (0.00 sec) 


mysql> 


图 418 


422 MySQL 的 DML 操作 


XT MySQL 的 DML 操作 讲解 视频 可 扫描 二 维 码 观看 。 

DML 是 对 表 中 的 数据 进行 插入 (insert)、 修 改 (update)、 删 除 (delete) 
等 操作 。 

(1) 在 mydbl 数据 库 中 创建 一 张 student 表 ， 操 作 如 下 : 


create table mydbl.student ( 
id int, 


name varchar (20), 
chinese double, 
english double, 
math double 


); 


(2) 数据 插入 〈insert)， 操 作 如 下 : 


insert into mydbl.student (id,name,chinese,english,math) values (1,' 张 三 ' 


78.8,98,66); 
insert into mydbl.student (id,name,chinese,english,math) values (2, '7E[U', 
88.5,68,96); 
insert into mydbl.student (id,name,chinese,english,math) values (3, ' EWI, 
98,96,96); 
insert into mydbl.student (id,name,chinese,english,math) values (4,，' 张 琴 '， 
78,68,66); 
insert into mydbl.student (id,name,chinese,english,math) values (5, ' 李 强 强 ', 
76,88,86); 
insert into mydbl.student (id,name,chinese,english,math) values(6, 'MX', 
58,48,36); 
insert into mydbl.student (id,name,chinese,english,math) values(7, ' 刘 星 '， 
88,85,86); 
insert into mydbl.student (id, name, chinese, english, math) 

values (8, "EBi',98,85,96), 

(9, "X=", 88,75,76), 

(10, "ENXZ',68,95,76), 

(11, ' 张 健 任 ' ,78, 95, 86) ; 


(3) 查看 student 表 中 的 数据 ， 操 作 如 下 : 


mysql» select * from mydbl.student; 


示例 如 图 4.19 所 示 。 
mysql> select * from mydbi.student; 
4------ 4----------- 4--------- 4--------- 4------ * 
| id 1 | chinese | english | math | 
M------ 4----------- puma 4--------- fm. + 
l t 78.8 | 98 | 66 | 
1 2] 88.5 | 68 | 96 | 
1 3 | 98 | 96 | 96 | 
1 4 78 | 68 | 66 | 
1 5] 76 | 88 | 86 | 
1 6 1 58 | 48 | 36 | 
1 ‘nl 88 | 85 | 86 | 
1 8 | 98 1 85 | 96 | 
| 9-1 88 | 75 | 76 | 
1 10 | 68 | 95 | 76 | 
l 11 | 78 | 95 | 86 | 
M------ 4----------- 4--------- 4--------- pu + 
11 rows in set (0.00 sec) 


图 419 


(4) 修改 (update)。 假 如 发 现 张 健 任 的 语文 成 绩 过 低 ， 经 核实 张 健 任 的 语文 成 绩 是 98 
分 , 确实 是 录入 错误 , 这 时 可 以 用 update 语句 修改 张 健 任 的 语文 分 数 , 示例 如 图 4.20 所 示 。 
(5) WER (delete). 


语法 : 

delete from tablename [where cloumn-value] 第 
4 
= 
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mysql>| update mydbi.student set chinese-98 where id=11; 
Query OK, 1 row affected (0.01 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


mysql> select * from mydbil.student; 


pe ee 十 一 一 一 一 一 一 一 一 一 ————— eM T 
| id 1 | chinese | english | math | 
pamana ena Gotta eee: Aa bana a 
1 ij 78.8 | 98 | 661 
1 2*4] 88.5 | 68 | 96 | 
1 31 98 | 96 | 961 
1 4 | 78 1 68 1 661 
1 51 76 | 88 | 861 
1 61 58 | 48 | 36 | 
1 71 88 | 85 | 861 
1 8 1 98 | 85 1 961 
1 9 1 88 | 75 | 76 | 
1-763071 68 | 95 1 761 
| ii| KRE | 98 |I 95 1 861 
+------ 4----------- 4--------- 4--------- 4------ * 


11 rows in set (0.00 sec) 


图 420 


C 删除 表 中 序号 为 “5” 的 学 生 记录 ， 如 图 4.21 所 示 。 


mysql> ia from mydbi.student where id=5; 
Query , 1 Yow affected (0.00 sec) 


mysql> select * from mydbi.student; 


p amma Ninn 了 i career + 

1 id | name | chinese | english | math | 
----- 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 

1 78.8 | 98 1 661 

1 88.5 | 68 | 961 

1 98 1 961 961 

1 78 | 681 661 

1 58 | 48 | 36| 

1 88 | 85 | 861 

1 98 | 851 961 

1 88 | 751 761 

| 10|EXZI 68 | 951 761 

1 11 1 张 健 任 | 98 1 95 1 86) 

4------- 4----------- 4--------- 二 一 一 一 一 一 一 一 一 一 4------ * 


10 rows in set (0.00 sec) 
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© 用 delete 删除 表 中 所 有 记录 : 


mysql» delete from mydbl.student; 


@) 用 truncate 删除 表 中 所 有 记录 : 


mysql> truncate table mydbl.student, 


delete 和 truncate 都 可 以 删除 表 中 的 数据 。delete 删除 表 中 的 数据 ， 表 结构 还 在 ， 删 除 
后 的 数据 还 可 以 找 回 。truncate 删除 是 把 表 全 部 drop 掉 ， 然 后 再 创建 一 个 同样 的 新 表 ， 删 
除 的 数据 不 能 找 回 ， 但 它 的 执行 速度 比 delete 快 。 


43 ”数据 库 用 户 操作 


43.1 创建 用 户 
语法 : 
create user username@localhost identified by 'passwd' 


解释 : 

。 username: 用 户 名 。 

* localhost: 指定 远程 可 以 访问 数据 库 的 地 址 。“%?” 代 表 所 有 人 都 可 以 访问 该 数据 库 。 
localhost 代表 只 能 本 机 访问 。 

e passwd: 用 户 密码 。 

示例 如 图 4.22 所 示 。 


mysql> —— ee eee 
ps user mydbü'i' identified by '1234576" 


Query 


mysql> select User,Host from nysql.User; 


ERROR 1146 (42802): Table 'mysql.User' doesn't exist 
mysql> select User,Host from nysql.user; 
+------ 4- 一 ----------- 一 .-- 


| mydb 1% 
root | 127.0.0.1 
| localhost 


1 
--+ 
1 
1 
1 
1 


| 
| 
| root | localhost 
| | localhost.localdomain | 
| root | localhost.localdomain | 


6 rows in set (0.00 sec) 


图 422 
可 以 通过 “select user, Host from mysql.user” 语 句 验证 用 户 创建 是 否 成 功 。 
4.3.2 给 用 户 授权 
语法 : 
grant 权限 1，…， 权 限 n on *.* to user name@localhost 


解释 : 

® BUR. 

e all: 全 部 权限 。 

* create: 赋予 用 户 创 建 表 的 权限 。 
e alter: 赋予 用 户 修改 表 的 权限 。 


第 
e drop: 赋予 用 户 删 除 表 的 权限 。 4 
章 
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insert: 赋予 用 户 插入 数据 的 权限 。 
* update: 赋予 用 户 更 新 数据 的 权限 。 


。 其 他 权限 。 


Q)* 第 一 个 “*” 代 表 该 用 户 中 的 所 有 数据 库 ， 第 二 个 “* ”代表 该 用 户 中 的 所 有 表 。 


G) user name: 用 户 名 。 


(D localhost: 指定 远程 可 以 访问 数据 库 的 地 址 “%?” 代 表 所 有 人 都 可 以 访问 该 数据 库 ， 


localhost 代表 只 能 本 机 访问 。 
示例 如 图 4.23 所 示 。 


— 


mysql> grant all on *.* to mydb@localhost; 
Query OK, 0 rows affected (0.00 sec) 


mysql> show grants for mydb@localhost; 


DE + 
| Grants for mydb@localhost [| 
Hmm + 
| GRANT ALL PRIVILEGES ON *.* TO 'mydb'@'localhost' | 
+---------------------------------------------------. + 


1 row in set (0.00 sec) 


图 4.23 


可 以 通过 “show grants for mydb@localhost” 语 句 验 证 授权 是 否 成 功 。 


4.3.3 ”撤销 授权 
语法 : 
revoke 权限 1，…， 权 限 n on * 
示例 如 图 4.24 所 示 。 


.* from user name@localhost 


| Grants for mydb@t 


+ 


| GRANT 


15B6E14ABA: 


L [PRIVILEGES ON *.* TO 'mydb'@'8' 
ES8C67E71F' | 


1 row in set (0.00 sec) 


mysql> revoke all on *.* from mydbe'8': 


Query OK, 


0 rows affected (0.00 sec) 


mysql> show grants for mydb@'$'; 


| Grant| USAGE |ON *.* TO 'mydb'@'$' IDENTIFIE 
|A46ESBCG7E71F' | 


pas 


1 row in set (0.00 sec) 
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从 上 述 示例 可 以 看 出 , mydb 用 户 的 权限 通过 revoke---from 语句 撤销 后 ，mydb 用 户 的 
ALL PRIVILEGES 权限 变 成 了 USAGE 权限 。 


434 查看 用 户 权 限 


我 们 在 之 前 已 经 使 用 过 查看 用 户 权限 语句。 
语法 : 


show grants for user name@localhost 


解释 : 

e user name: 用 户 名 。 

o localhost: 指定 远程 可 以 访问 数据 库 的 地 址 。“%” 代 表 所 有 人 都 可 以 访问 该 数据 库 。 
“1localhost” 代 表 只 能 本 机 访问 。 

示例 如 图 4.25 所 示 。 


| + 
| Grants for mydb@% 
I 


HEN CINE + 
| GRANT USAGE ON *.* TO 'mydb'@'%' IDENTIFIED BY 


* 
1 row in set (0.00 sec) 


图 425 


43.5 HIRAP 
语法 : 
drop user user name@localhost 


e user name: 用 户 名 。 

* localhost: 指定 远程 可 以 访问 数据 库 的 地 址 。“%” 代 表 所 有 人 都 可 以 访问 该 数据 库 。 
“localhost” 代 表 只 能 本 机 访问 。 

示例 如 图 4.26 所 示 。 


mysql> [drop user mydpa 8'7 
Query OK, 0 rows affected (0.00 sec) 


mysql> select User,Host from mysql.user; 
+ + 


+ 
1 root | 127.0.0.1 1 
1 1 localhost 1 
| mydb | localhost 1 
| root | localhost 1 
1 | localhost.localdomain | 
| root | localhost.localdomain | 


6 rows in set (0.00 sec) 


图 426 
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43.6 ”修改 用 户 密码 


修改 用 户 密码 操作 是 不 常 使 用 的 操作 ， 但 是 如 果 不 小 心 忘记 了 密码 就 需要 用 到 此 操 
WE, 修改 用 户 密码 分 为 两 步 : 第 一 步 , 修改 mysql 数据 库 下 的 user 表 中 的 指定 用 户 的 密码 ; 
第 二 步 , 修改 完 user 表 后 必须 执行 flush privileges 重新 加 载 权 限 表 , 修改 的 密码 才 会 生效 。 


语法 : 


update mysql.user set password-password (‘passwd’) where User-' new username’; 
flush privileges: 


示例 如 图 4.27 所 示 。 


mysql> update mysql.user set password-password('bunfly') where user-'mydb'; 
Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


mysql> flush privileges; 
Query OK, 0 rows affected (0.00 sec) 


mysql> exit; 

Bye 

[root@localhost -]# mysql -u mydb -pbunfly 

Welcome to the MySQL monitor. Commands end with ; or Ng. 

Your MySQL connection id is 6 

Server version: 5.1.73 Source distribution 

Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 

owners. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 


mysql> 


图 4.27 


上 述 示例 使 用 “update mysql.user set password-password('bunfly') where user='mydb'” i 
句 修改 了 mydb 用 户 的 密码 ， 并 把 密码 修改 为 “bunfly”， 用 掩 密 方式 存储 在 user 表 中 ， 通 
it “flush privileges” 语 句 将 修改 过 的 user 表 重 新 加 载 到 权限 表 ， 使 新 密码 生效 。 通 过 exit 
退出 当前 登录 mysql 的 用 户 ， 然 后 用 新 用 户 登 录 验 证 密码 是 否 修改 成 功 。 


44 数据 库 查 询 操作 


DQL 操作 是 对 数据 的 操作 ， 执 行 DQL 语句 不 会 对 数据 进行 改变 ， 而 是 
让 数据 库 发 送 结果 集 给 客户 端 。 练 习 数 据 参 照 4.2.2 节 中 的 student 表 数 据 。 

关于 DQL 的 讲解 视频 可 扫描 二 维 码 观看 。 

查询 关键 字 :，select 

语法 : 


select columnl,column2,-- from tablename [where | group by | having | order 


by | limit ] 


解释 : 

column: 列 名 。 

tablename: 表 名 。 

where: 条 件 。 

group by: 对 结果 分 组 。desc 为 降序 ，asc 为 升序 (默认 )。 
having: 分 组 后 的 条 件 。 

order by: 对 结果 排序 。 

。 limit: 结果 限定 。 

1， 基 础 查询 

(1) 查询 所 有 列 可 以 使 用 通配符 “* ”表示 ， 也 可 以 列 出 所 有 字段 。 


mysql» select * from mydbl.student; 


mysql» select id,name,chinese,english,math from mydbl.student; 
(20 查询 指定 列 只 需要 将 需要 查询 的 字段 列 出 来 即 可 。 

例如 ， 需 要 查询 id、name 列 ， 代 码 如 下 : 

mysql» select id,name from mydbl.student; 

2. 条件 查 询 


(1) 条 件 查询 就 是 在 查询 时 给 出 where 关键 字 ， 在 where 子 句 中 可 以 使 用 如 表 4.2 所 
示 的 运算 符 及 关键 字 。 


表 4.2 

运算 符 和 关键 字 说 明 

= 等 于 

FRS 不 等 于 

< 小 于 

<= 小 于 或 等 于 

> 大 于 

大 于 或 等 于 

between…and 在 多 少 到 多 少数 字 之 间 

in 在 什么 内 

is null 是 空 

and 并 且 

or 或 者 

not 不 … 

(2) 查询 “语文 ”成 绩 小 于 80 分 的 所 有 学 生 ， 如 图 4.28 所 示 。 第 
4 
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mysql> select name,chinese from mydbl.student where chinese<80; 


Hu Hu + 
| chinese | 
a po. 
78.8 | 
78 | 
58 | 
68 | 
Hu po + 


4 rows in set (0.00 sec) 


图 428 


(3) 查询 “语文 ”成 绩 小 于 80 分 , 或 者 “数学 ”成 绩 小 于 70 分 的 所 有 学 生 ， 如 图 4.29 


mysql> select name,chinese,math from mydbl.student where chinese<80 or math«70; 


+----------- 4--------- + 一 一 一 一 一 一 + 
1 chinese | math | 
----- 4---------4------ 

78.8 | 66 | 

78 | 66 | 

58 | 36 | 

68 | 76 | 

4----------- 4--------- 4------ * 


4 rows in set (0.00 sec) 


图 429 


(4) 查询 “语文 ”成 绩 小 于 80 2). 并且“ 数学 ”成 绩 小 于 70 分 的 所 有 学 生 ， 如 图 4.30 
所 示 。 


mysql> select name,chinese,math from mydbi.student where chinese<80 and math<70; 
4-------- 4--------- 4------ 十 
| name | chinese | math | 


3 rows in set (0.00 sec) 
图 4.30 


(5) 查询 “语文 ”成 绩 在 80 一 100 分 的 所 有 学 生 。 
方式 一 : 如 图 4.31 所 示 。 


mysql> select * from mydbl.student where chinese>=80 and chinese <=100; 


+------ fu. frm. 4--------- umm. 十 
| id | name | chinese | english | math | 
+------ + 
1 2! 
1 31 
1 AA | 
d 8 | 
[| 9 
1 111 
M------ + 


方式 二 : 如 图 4.32 所 示 。 


mysql> select “ from mydbi.student where chinese between 80 and 100; 


Ne 二 十 一 一 一 一 一 一 一 一 一 4 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 
| id | name | chinese | english | math | 
+------ == = = 一 一 一 一 一 一 + 
1 2 | #0 1 88.5 | 68 | 961 

1 3 | EH | 98 | 96 | 961 
1 7 | RE 1 88 | 85 | 86 | 

1 8 | £M 1 98 | 85 | 96 | 

1 9 | BF 1 88 | 15 76: 1 

1 11 | 张 健 任 | 98 | 95 1 861 
+------ + 


6 rows in set (0.00 sec) 
图 4.32 
(6) 查询 所 有 学 生 的 成 绩 信息 ， 并 按 “ 语 文 ” 成 绩 从 高 到 低 排 序 ， 如 图 4.33 所 示 。 


mysql> select * from mydbl.student order by chinese desc; 
Fu 4----------- 4--------- 4--------- 4------ * 
lid | 1 chinese | i 


Siem eel SEA AP ES 


10 rows in set (0.00 sec) 
图 4.33 


CD 查询 总 分 排名 前 三 的 学 生 信息 ， 示 例如 图 4.34 所 示 。 
mysql> select * from 


-> (select id,name, (chinesetenglishtmath) score sum from mydbi.student) t 
-» order by t.score sum 


-> limit 3; 
pu -— 
| score sum | 
ec ha dha + 
142 | 
212 | 
239 | 
RITU go €—— M * 


3 rows in set (0.00 sec) 
图 434 


上 述 示例 是 通过 “select id name,(chinese+english+math)score_sum from mydb1.student” 


基础 上 再 进行 统计 。 
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45 习题 与 思考 


1. 在 Linux 系统 MySQL 中 创建 bunfly 数据 库 ， 并 按 表 4.3 和 表 4.4 要 求 分 别 创建 
Student 表 和 Score 表 。 


表 43 
字段 名 字段 描述 数据 类 型 主键 外 键 非 空 
Name 姓名 VARCHAR(20) f f 是 
Sex 性 别 VARCHAR(4) 否 否 否 
Birth 出 生年 份 VARCHAR(10) f f f 
Department 院 系 VARCHAR(20) T 否 是 
Address 家 庭 住址 VARCHAR(50) 否 否 否 
Stu id 学 号 INT (10) f f 是 

表 4.4 
字段 名 字段 描述 数据 类 型 主键 外 键 drm 
Stu id 学 号 INT(10) f f 是 
C_name 课程 名 VARCHAR(20) f f f 
Grade 分 数 INT(10) 否 5 T 


2. 按 表 4.5 和 表 4.6 NAH Student 表 和 Score 表 增 加 内 容 。 


R 45 
姓名 ”性 别 出 生年 份 院 系 家 庭 住址 学 号 
x- R 1994/11/26 数学 系 上 海 20157259 
陈 二 B 1993/6/11 数学 系 北京 20153174 
k= xt 1994/9/21 BER 北京 20157824 
Tu 5 1993/1/26 信息 工程 系 云南 20155367 
tu 5 1993/9/18 信息 工程 系 贵州 20152240 
赵 六 女 1994/9/26 信息 工程 系 贵州 20152229 
MG x 1994/11/5 信息 工程 系 重庆 20154781 
HA X 1995/1/29 信息 工程 系 BP 20157395 
KAL B 1994/9/3 信息 工程 系 浙江 20155985 
郑 十 女 1994/12/2 机 电工 程 系 山西 20155846 
K 46 
学 号 课程 名 分 数 
20157259 语文 90 
20157259 数学 58 
20157259 外 语 39 
20152240 语文 91 
20152240 数学 95 
20152240 外 语 75 


20152229 语文 60 


续 表 


学 号 课程 分 数 
20152229 数学 58 
20152229 外 语 53 
20155985 语文 62 
20155985 数学 43 
20155985 外 语 74 


3 尝试 查询 出 数学 系数 学 成 绩 不 及 格 的 学 生 。 
4. 尝试 查询 出 信息 工程 系 所 有 学 生 的 外 语 成 绩 。 
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第 2 篇 Hadoop 技术 


第 5 章 Hadoop 开发 环境 


5.1 Hadoop 生态 圈 工 具 


开发 人 员 通 常 要 使 用 开发 工具 , 不 同 的 工具 有 不 同 的 用 途 。 例 如 , 他 们 可 能 会 用 Eclipse 
进行 代码 编写 ， 用 MySQL 或 者 Oracle 进行 数据 存储 ， 这 里 的 工具 都 有 特定 的 用 处 。 然 而 
Hadoop 生态 圈 就 变 得 有 点 复杂 ， 那 Hadoop 生态 圈 是 什么 呢 ? 

根据 官方 描述 ，Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 ， 用 户 
可 以 在 不 了 解 分 布 式 底 层 细节 的 情况 下 去 开发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 数据 
存储 和 数据 计算 。Hadoop 的 框架 最 核心 的 设计 是 HDFS 和 MapReduce. HDFS 为 海量 的 数 
据 提 供 了 分 布 式 存储 ，MapReduce 是 对 数据 进行 处 理 。Hadoop 框架 是 Hadoop 生态 圈 的 基 
础 ， 许 多 工具 都 是 基于 Hadoop 框架 中 分 布 式 文件 存储 系统 的 基础 而 运行 的 ， 包 括 Hive. 
Pig. HBase 等 工具 ， 所 以 通常 人 们 说 Hadoop 就 是 指 Hadoop EAH. 

Hadoop 生态 圈 好 比 一 个 厨房 ， 需 要 各 种 工具 。 锅 、 碗 、 球 、 盆 各 有 各 的 用 处 ， 相 互 之 
间 又 有 重合 。 例 如 ， 可 以 用 汤锅 当 碗 来 吃饭 喝 汤 ， 也 可 以 用 小 刀 削 土 豆 皮 ， 每 个 工具 都 有 
自己 的 特性 。 虽然 都 可 以 达到 最 终 目的 , 但 是 这 种 工具 未 必 是 最 佳 的 选择 。Hadoop 生态 图 
中 的 这 些 工具 就 像 是 厨房 里 的 各 种 工具 ， 它 们 都 是 基于 “厨房 ”(Hadoop HER) 存在 的 ， 
它们 在 这 个 圈 里 发 挥 各 自 的 作用 ， 组 成 了 Hadoop 生态 系统 。 

Hadoop 生态 系统 组 件 如 图 5.1 所 示 。 


ET Sa 
| 人 Hive Bas 
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1. Hadoop 

Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。 用 户 可 以 在 不 了 解 分 
布 式 底层 细节 的 情况 下 ， 开 发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 
Hadoop 实现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS). HDFS 有 高 
容错 性 的 特点 ， 设 计 用 来 部 署 在 低廉 的 PC (Personal Computer) 上 ， 而 且 它 提供 高 吞吐 量 
访问 应 用 程序 的 数据 ， 适 合 有 超大 数据 集 的 应 用 程序 。 

2. Hive 

Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 
库 表 ， 并 提供 类 似 SQL 的 查询 功能 ， 本 质 是 将 SQL 转换 为 MapReduce 程序 。 

Hive 的 特点 如 下 。 

。 可 扩展 性 : Hive 可 以 自由 地 扩展 集群 的 规模 ， 一 般 情况 下 不 需要 重启 服务 。 

o 延展 性 : Hive 支持 用 户 自 定义 函数 ， 用 户 可 以 根据 自己 的 需求 来 实现 自己 的 函数 。 

。 UTE: 节点 出 现 问题 SQL 仍 可 完成 执行 ， 容 错 性 良好 。 

3. Pig 

Pig 是 一 种 数据 流 语言 和 运行 环境 ， 用 于 检索 非常 大 的 数据 集 。 它 是 一 个 高 级 过 程 语 
言 ， 适 合 于 使 用 Hadoop 和 MapReduce 平台 来 查询 大 型 半 结 构 化 数据 集 。 通 过 脚本 语言 
方式 简化 了 Hadoop 的 使 用 , Pig 为 复杂 的 海量 数据 并 行 计算 提供 了 一 个 简单 的 操作 和 编程 
接口 。 

4. Sqoop 

Sqoop 是 一 款 开源 的 工具 , 主要 用 于 在 Hadoop 与 关系 型 数据 库 (MySQL, Oracle, +++) 
间 进 行 数 据 的 传递 。Sqoop 项 目 开 始 于 2009 年 ， 最 早 是 作为 Hadoop 的 一 个 第 三 方 模块 存 
在 的 ， 后 来 为 了 实现 使 用 者 能 够 快速 部 署 ， 以 及 开发 人 员 能 够 更 快速 地 迭代 开发 ，Sqoop 
独立 成 为 一 个 Apache 项 目 。 

5. Flume 

Flume 是 Apache 公司 提供 的 一 个 高 可 用 的 、 高 可 靠 的 、 分 布 式 的 海量 日 志 采 集 、 聚 合 
和 传输 的 系统 , Flume 支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 , 用 于 收集 数据 。 同时 , Flume 
提供 对 数据 进行 简单 处 理 ， 并 写 到 各 种 数据 接收 方 的 能 力 

6. Zookeeper 

Zookeeper 是 一 个 开放 源码 的 分 布 式 应 用 程序 协调 服务 ， 是 Google 公司 的 Chubby 的 
一 个 开源 的 实现 ， 是 Hadoop 和 Hbase 的 重要 组 件 ， 是 一 个 为 分 布 式 应 用 提供 一 致 性 服务 
的 软件 。 提 供 的 功能 包括 配置 维护 、 名 字 服 务 、 分 布 式 同步 、 组 服务 等 ， 目 标 就 是 封装 好 
复杂 易 出 错 的 关键 服务 ， 将 简单 易 用 的 接口 和 性 能 高 效 、 功 能 稳定 的 系统 提供 给 用 户 。 

7. HBase 

HBase 是 一 个 开源 的 非 关 系 型 分 布 式 数据 库 (NoSQL )。 它 参考 了 Google 公司 的 
BigTable 建 模 ， 实 现 的 编程 语言 为 Java。 它 是 Apache 软件 基金 会 Hadoop 项 目的 一 部 分 ， 
运行 于 HDFS 文件 系统 之 上 ， 为 Hadoop 提供 类 似 于 BigTable 规模 的 服务 。HBase 在 列 上 
实现 了 BigTable 论文 提 到 的 压缩 算法 、 内 存 操 作 和 布 隆 过 滤器 。HBase 的 表 能 够 作为 
MapReduce 任务 的 输入 和 输出 ， 可 以 通过 Java API 来 存 取 数据 ， 也 可 以 通过 REST. Avro 
或 者 Thrift 的 API 来 访问 。HBase 弥补 了 Hive 不 能 随机 读 写 的 缺陷 。 


52 环境 搭建 


0.23 版 本 之 前 与 之 后 的 Hadoop 集群 都 存在 单 点 问题 , 其中, NameNode 的 单 点 问题 万 
为 严重 。 由 于 NameNode 保存 了 整个 HDFS 的 元 数据 信息 , 因此 一 旦 NameNode 出 现 故 障 ， 
整个 HDFS 就 无 法 访问 。 同 时 Hadoop 生态 系统 中 依赖 HDFS 的 各 个 组 件 , 包 括 MapReduce, 
Hive、Pig、HBase 等 工具 ， 也 都 无 法 正常 工作 ， 并 且 重 新 启动 NameNode 和 进行 数据 恢复 
的 过 程 也 会 比较 耗 时 。 这 些 问 题 在 给 Hadoop 的 使 用 者 带 来 困扰 的 同时 ， 也 极 大 地 限制 了 
Hadoop 的 使 用 场景 。 所幸 在 Hadoop 2.0 中 NameNode 和 ResourceManager 的 单 点 问题 都 
得 到 了 解决 ， 经 过 多 个 版 本 的 迭代 和 发 展 ， 目 前 已 经 能 用 于 生产 环境 。 

生产 环境 中 的 Hadoop 大 数据 集群 是 由 多 人 台 服 务 器 组 成 的 集群 。 为 了 方便 学 习 和 教学 ， 
这 里 采用 在 VMware 平台 中 搭建 虚拟 机 的 方式 模拟 Hadoop 大 数据 集群 。 要 想 实现 Hadoop 
大 数据 集群 高 可 用 环境 ， 最 少 需要 S 台 虚 拟 机 ， 其 中 两 台 Master 节点 (一 台 作 为 活动 状态 
(active)， 另 一 台 作 为 备用 状态 (standby)) 为 集群 管理 节点 ， 三 台 Slave 节点 做 数据 存储 。 
Hadoop 高 可 用 大 数据 集群 每 台 虚 拟 机 所 需要 的 软件 如 图 5.2 所 示 。 


Hadoop 大 数据 集群 


图 52 


安装 高 可 用 大 数据 集群 步骤 分 为 安装 虚拟 机 、 安 装 JDK、 安 装 Hadoop、 复 制 虚拟 机 、 
设置 免 密 、 安 装 Zookeeper 和 启动 Hadoop 集群 等 。Linux 系统 的 虚拟 机 安装 请 参考 2.1 节 
的 系统 安装 。 


5.2.1 步骤 1 一 虚拟 机 安装 
虚拟 机 安装 步骤 见 2.1.2 节 。 
522 ”步骤 2 一 一 安装 JDK 和 Hadoop 
关于 JDK 和 Hadoop 7E Linux 环境 下 安装 的 讲解 视频 可 分 别 扫描 以 下 三 个 二 维 码 观看 。 


Hadoop FA KE 
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为 了 解决 Hadoop 的 高 可 用 问题 ，Zookeeper 应 运 而 生 。 高 可 用 分 为 两 种 : 数据 高 可 用 
和 服务 高 可 用 。 为 了 实现 高 可 用 必须 有 两 台 Master 节点 和 多 台 Slave 节点 〈 其 中 IP 地 址 第 
三 段 “153” 需 要 跟 自 己 的 VMware 工具 平台 网 段 一 致 ， 可 以 通过 在 VMware 工作 平台 中 选择 
“编辑 ”一 “虚拟 网 络 编辑 器 ”一 VMware8 一 “ 子 网 ”来 查看 )， 具 体 配置 如 表 5.1 所 示 。 


$ 51 
主机 名 IP 地 址 
Master001 192.168.153.101 
Master002 192.168.153.102 
Slave001 192.168.153.201 
Slave002 192.168.153.202 
Slave003 192.168.153.203 


1， 基 础 信息 配置 

首先 在 一 台 虚 拟 机 中 设置 基础 信息 ， 假 设 这 台 虚 拟 机 为 Master001。 在 基础 信息 中 需 
要 设置 主机 名 、 卫 地址 和 名 称 解析 等 配置 ， 这 些 配置 文件 只 有 root 用 户 才 有 改写 权限 ， 所 
以 需要 使 用 root 用 户 登 录 来 编写 这 些 配 置 文件 。 

1) 修改 主机 名 

通过 编辑 network 文件 ， 将 HOSTNAME 值 修改 为 新 的 主机 名 ， 具 体操 作 如 下 : 

[root@localhost ~]# vi /etc/sysconfig/network 

改写 : 

HOSTNAME=Master001 

2) WESS IP 

通过 编辑 ifcfg-etho 文件 来 设置 IP 地 址 ， 具 体操 作 如 下 : 

[root@localhost ~]# vi /etc/sysconfig/network-scripts/ifcfg-ethO 

改写 : 


ONBOOT=yes 
BOOTPROTO=static 


插入 : 


IPADDR=192.168.153.101 
NETMASK=255.255.255.0 
GATEWAY-192.168.153.2 


3) 设置 resolvconf 

文件 是 DNS 域名 解析 的 配置 文件 ， 它 的 格式 很 简单 ， 每 行 以 一 个 关键 字 开头 ， 后 接 
配置 参数 。 

resolv.conf 有 4 个 主要 关键 字 ， 分 别 是 : 

nameserver #3EX DNS 服务 器 的 IP 地 址 

domain # 定 义 本 地 域名 

search # 定 义 域 名 的 搜索 列表 

sortlist # 对 返回 的 域名 进行 排序 
其 中 最 主要 的 是 nameserver 关键 字 ， 如 果 不 指定 nameserver 就 找 不 到 DNS 服务 器 ， 
其 他 关键 字 也 是 可 选 的 。 
具体 操作 如 下 : 


root@localhost -]# vi /etc/resolv.conf 
插入 : 
nameserver 192.168.153.2 


4) 设置 hosts 
hosts 文件 是 Linux 系统 中 负责 IP 地 址 与 域名 快速 解析 的 文件 ， 需 要 配置 其 他 几 个 节 
点 的 主机 名 和 下 来 快速 访问 集群 中 的 其 他 节点 。 


具体 操作 如 下 : 

[root@localhost ~]# vi /etc/hosts 
插入 : 

K9? 1168153111018 Master001 
19221685153- 102 Master002 

192 :168:153:-201 Slave001 
192:168:153:202 Slave002 
19221698:153-203 Slave003 


5) 使 设置 生效 
只 是 修改 IP 地 址 可 以 重启 网 络 服务 即 可 以 生效 ， 操 作 如 下 : 


[root@localhost ~]# service network restart 
如 果 修 改 了 主机 名 ， 必 须 重 启 虚 拟 机 才能 生效 ， 操 作 如 下 : 


[root@localhost ~]# reboot 


6) 验证 设置 是 否 成 功 

启动 成 功 后 信息 栏 从 “[root@localhost ~]#” 28 nk “[root@Master001 ~]#”， 这 时 主机 名 
修改 成 功 。 

验证 IP 地 址 设置 是 否 成 功 可 以 通过 ifconfig 命令 查看 IP 地 址 ， 如 果 出 现 “eth0” 网 络 
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ARAL IP 地址 ， 则 说 明 静 态 IP 设置 成 功 ， 这 时 可 以 使 用 ping 命令 进一步 验证 是 否 能 联通 
内 网 ， 具 体操 作 如 下 : 


[root@Master001 ~]# ifconfig 
eth0 Link encap:Ethernet HWaddr 00:0C:29:45:78:7B 
inet addr:192.168.153.101 Bcast:192.168.153.255 Mask:255.255.255.0 


RX bytes:8610 (8.4 KiB) TX bytes:9849 (9.6 KiB) 


lo Link encap:Local Loopback 
net addr:127.0.0.1 Mask:255.0.0.0 


RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 


[root@Master001 ~]# ping 192.168.153.1 
PING 192.168.153.1 (192.168.153.1) 56(84) bytes of data. 
64 bytes from 192.168.153.1: icmp seq-1 tt1-128 time-0.450 ms 


64 bytes from 192.168.153.1: icmp seq=4 tt1-128 time-0.522 ms 
^c 

--- 192.168.153.1 ping statistics --- 

4 packets transmitted, 4 received, 0$ packet loss, time 4019ms 
rtt min/avg/max/mdev = 0.450/0.501/0.572/0.055 ms 


验证 外 网 是 否 联通 。VMware 平台 中 的 虚拟 是 通过 与 虚拟 机 共享 主机 的 IP 地 址 来 访问 
外 网 的 ， 虚 拟 机 要 连接 网 络 必须 保证 宿主 机 能 够 正常 访问 网 络 ， 虚 拟 机 是 否 能 访问 外 网 可 
以 通过 “ping www.baidu.com” 命 令 来 验证 ， 如 果 能 ping 通 百 度 ， 则 说 明 外 网 访问 成 功 。 


[root@Master001 ~]# ping www.baidu.com 
PING www.baidu.com (180.97.33.107) 56(84) bytes of data. 
64 bytes from 180.97.33.107: icmp seq-1 tt1-128 time=36.2 ms 
64 bytes from 180.97.33.107: icmp seq=6 tt1-128 time-41.2 ms 
5c 
--- www.baidu.com ping statistics --- 
6 packets transmitted, 6 received, 0$ packet loss, time 5729ms 
rtt min/avg/max/mdev = 36.278/38.147/41.229/1.858 ms 


7) 创建 普通 用 户 

计算 机 的 操作 难免 会 有 失误 ， 如 果 关 于 内 核 的 操作 不 当 ， 则 会 对 系统 造成 重大 破坏 ， 
如 一 些 工具 不 能 使 用 、 系 统 无 法 启动 等 。 为 了 减少 误 操作 对 系统 造成 的 伤害 ， 出 于 安全 性 
需要 建立 普通 用 户 。 


(1) 创建 用 户 名 叫 hadoop 的 用 户 。 
[root@Master001 ~]# adduser hadoop 
(2) 给 hadoop 用 户 指定 密码 (密码 : 123456). 


[root@Master001 ~]# passwd hadoop 
更 改 用 户 hadoop 的 密码 。 
新 的 密码 : 
无 效 的 密码 : 过 于 简单 化 /系统 化 
无 效 的 密码 : 过 于 简单 
重新 输入 新 的 密码 ; 
passwd: 所 有 的 身份 验证 令 牌 已 经 成 功 更 新 。 


(3) 验证 用 户 是 否 创 建成 功 ， 如 果 能 成 功 切换 表示 用 户 创建 成 功 。 


[root@Master001 ~]# su -1 hadoop 
[hadoop@Master001 -]# 


8) 安装 Xshell 

Xshell 是 系统 的 用 户 界面 ， 提 供 了 用 户 与 内 核 进行 交互 操作 的 一 种 接口 ， 它 接收 用 户 
输入 的 命令 并 把 它 送 入 内 核 去 执行 。 可 以 把 Xshell 理解 为 一 个 客户 端 ， 可 以 通过 这 个 客户 
端 来 远程 操作 Linux 系统 ,就 像 用 Navicat 去 连接 MySQL 服务 器 一 样 , 可 以 远程 操作 MySQL 
数据 库 。 

2. 安装 Xshell 

(1) 在 安装 文件 目录 中 找到 Xme4.exe 文件 ， 并 双击 安装 Xme4.exe。 

(2) 选中 Iaccept the terms of the license agreement 单 选 按钮 ， 然 后 单 击 Next 按钮 ， 如 
图 5.3 所 示 。 

(3) 输入 名 字 、 公 司 和 密 钥 ， 单 击 Next 按钮 ， 如 图 5.4 所 示 。 


回 Iacceptthe terms of the license agreement Print 
© I do not accept the terms of the license agreement 


InstallShield 


«Bak | Neto ] ca * 
图 53 5 
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Customer Information E 
Piense enter your information. Xmanager'4 
amm 


Please enter your name, company name and the product key. If you are evaluating this 
‘software, enter "evaluation: for the product key. 


User Name: 


InstallShield 


Kaeo] (aa) 
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(4) 修改 安装 地 址 ， 单 击 Next 按钮 ， 如 图 5.5 所 示 。 


Choose Destination Location 


Select folder where setup wil nstal fies. Xmanager 4 


ammi 


Setup wil install Xmanager Enterprise 4in the folowing folder. 
To install to this folder, cick Next. To install to a different folder, dick Browse and select 
another folder. 


InstaliShield. 
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(5) 选择 Typical 安装 模式 ， 单 击 Next 按钮 ， 如 图 5.6 所 示 。 


Setup Type 


Select the setup type to install Xmanager'4 


Click the type of setup you prefer, then dick Next. 


@ Typical| ^ Program will be installed with the most common options. Recommended for 
most users. 
© Compact Program will be installed with minimum required options. 


© Custom You may select the options you want to install. Recommended for advanced 
users. 


InstallShield 


Eee eo] | [can] 


(6) 以 后 操作 均 为 默认 选项 ， 当 出 现 mstallShield Wizard Complete 提示 后 单 击 Finish 


按钮 即 可 。 
3. 连接 Xshell 


(1) 双击 Xshell 图 标 ， 单 击 “ 新 建 连接 ”按钮 ， 打 开 Xshell 终 


HUE 


如 图 5.7 所 示 。 


3 Xshell 4 
SHA 
[Fama |= - 


* 


[d] © 1 本 地 shell 


a0) SEM IAM SOW #MH 
= Qa A- p- 2-A- 539 


Build 0214) 


xterm 80x20 5,11 1 会 活 


图 5.7 


(2) 配置 需要 连接 的 虚拟 机 IP 地 址 、 用 户 名 和 密码 。 


这 里 使 用 hadoop FA] 


AK 


新 建 会 话 尾 性 
类 别 (C): 
3 Rk 

用 户 身份 验证 
登录 提示 符 

登录 脚本 

SSH 
安全 性 


t 


*HÉNG: 


常规 
BARN: Master001 
协议 (P) sa 
ENG): 192.168.153.101 
OL): 2 
IHAA 
加 连接 会 话 期 间 发 送 保持 活动 
iam: 60 je 
网 络 空间 8 发 送 字 符 串 (R) 
ARO: # 
网 络 为 空 闪 拓 态 时 发 送 TCP 保 持 活动 数据 世人 m7) 
重新 连接 
连接 异常 关闭 时 自动 重新 连接 (A) 
aM: 0 » 


图 ss 


限制 (0): 0 


AP NUM 


es 


ae 


Cole ==) 


， 连 接 成 功 后 将 进入 hadoop 用 户 家 目录 ， 如 果 是 root 用 户 
登录 连接 成 功 将 进入 root 用 户 家 目录 ， 如 图 5.8 和 图 5.9 所 示 。 
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里 a 请 选择 身份 验证 方法 和 其它 参数 。 
TO | 会 话 属 性 中 此 部 分 是 为 了 登录 过 程 更 便捷 而 提供 的 。 如 果 需要 支 全 性 很 高 
ERE [o Waa 
@ SSH 
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pr] , 
SFTP 方法 M): Password a 
TELNET = 
baa APEU: hadoop 
SERIAL EBP): NN 
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ERA): 
VT 模 式 
高 级 
roe ER 人 和 ceyboard ntaractve 人 在 soHsFrr 协 议 中 可用 
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跟踪 
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图 5.9 


(3) 选择 连接 Xshell， 如 果 信 息 栏 出 现 “[hadoop@Master001 ~]$”， 表 示 连 接 成 功 。 
(4) 切换 到 家 目录 ， 在 家 目录 下 创建 一 个 名 字 叫 software 的 文件 夹 ， 用 于 管理 安装 


文件 。 


[hadoop@Master001 ~]$ cd ~ 
[hadoop@Master001 ~]$ mkdir software 


(5) 进入 到 softeware 目录 。 


[hadoop@Master001 ~]$ cd software 
[hadoop@Master001 software] s 


4. 利用 Xftp 工具 上 传 文件 

(1) Xshell 工具 中 自 带 Xftp 工具 快捷 键 , 可 以 利用 Xftp 快捷 键 进入 Xftp THF, Xftp 
工具 可 以 从 Xshell 工作 界面 中 单 击 “Xftp 快捷 键 ”按钮 登录 ， 登 录 的 用 户 与 Xshell 登录 的 
用 户 为 同一 用 户 ， 如 图 5.10 所 示 。 也 可 以 单独 通过 双击 Xftp 工具 输入 IP 地 址 、 用 户 名 和 
密码 单独 登录 。 

如 果 使 用 Xshell 快捷 方式 登录 ， 用 户 登 录 上 传 的 那个 文件 权限 将 属于 该 用 户 也 是 经 常 
失误 的 地 方 。 具 体操 作 将 在 5.3 节 “ 常 见 问 题 汇总 ”中 详细 讲解 。 

(2) 图 5.11 中 ， 左 边界 面 是 宿主 机 中 的 界面 ， 右 边界 面 是 虚拟 机 中 的 界面 ， 下 面 界 面 
是 传输 数据 的 进度 条 界面 。 可 以 在 宿主 机 中 找到 要 上 传 的 文件 ， 通 过 双击 或 者 拖 动 的 方式 
将 文件 上 传 到 虚拟 机 中 ; 也 可 以 在 虚拟 机 中 拖 动 文件 到 宿主 机 中 下 载 文件 ， 通 过 Xshell 快 
捷 方式 登录 到 Xftp 工具 。 虚 拟 机 界面 中 目录 位 置 是 登录 之 前 的 位 置 , 如 果 这 个 位 置 不 是 想 
要 的 位 置 ， 可 在 Xftp 中 通过 选择 栏 进行 选择 。 


[hadoop@Master001 ~]$ cd software/ 
[hadoop@Master001 software]$ | 
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将 hadoop-2.6.5.tar.gz 和 jdk-8u131-linux-x64.tar.gz 安装 包 文 件 上 传 到 虚拟 机 software 
文件 夹 中 ， 如 图 5.11 所 示 。 
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5. 安装 JDK 

1) 查看 Xftp 上 传 的 文件 内 容 并 解压 安装 文件 

在 Xshell 中 输入 Is 命令 可 以 查看 Xftp 上 传 的 文件 内 容 ， 通 过 tar 命令 解压 | 第 
jdk-8u131-linux-x64.targz 压缩 文件 ， 操 作 如 下 : 5 
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[hadoop@Master001 software]$ 1s 
jdk-8u131-linux-x64.tar.gz 
hadoop-2.6.5.tar.gz 


[hadoop@Master001 software]$ tar -zxf jdk-8ul3l-linux-x64.tar.gz 
[hadoop@Master001 software]$ 1s 

jdk-8ul31-linux-x64.tar.gz 

hadoop-2.6.5.tar.gz 

jdk1.8.0 131 


2) 复制 JDK 安装 目录 
进入 到 jdk1.8.0_131 目录 ,使 用 pwd 命令 打印 jdk 安装 路 径 ， 利 用 鼠标 选择 复制 路 径 。 


[hadoop@Master001 software]$ cd jdk1.8.0 131/ 
[hadoop@Master001 jdk1.8.0 131]$ pwd 
/home/hadoop/software/jdk1.8.0 131 


3) 配置 环境 变量 

Linux 系统 中 环境 变量 分 为 两 种 : 全 局 变量 和 局 部 变量 。profile 文件 是 全 局 变量 配置 
文件 ,只 有 管理 员 用 户 对 profile 文件 才 有 写 入 权限 ,所 以 要 编写 profile 文件 需要 切换 到 root 
用 户 ， 因 为 在 全 局 变量 中 配置 的 环境 变量 对 所 有 用 户 都 有 效 。.bashrc 文件 是 局 部 变量 配置 
文件 ， 在 .bashrc 文件 配置 的 环境 变量 只 对 当前 用 户 有 效 。 

这 里 是 配置 全 局 环境 变量 。 操 作 如 下 : 


[hadoop@Master001 jdk1.8.0 131]$ su -1 root 


密码 : 
[root@Master001 ~]# vi /etc/profile 


KEN: 

#java 

export JAVA HOME-/home/hadoop/software/jdk1.8.0 131 
export PATH-SPATH: SJAVA HOME/bin 

4) 使 用 环境 变量 生效 


root@Master001 -]# source /etc/profile 

4) 验证 JDK 是 否 安装 成 功 

输入 java 或 者 java -version， 如 果 出 现 java 命令 的 详细 说 明 或 者 出 现 JDK 版 本 号 ， 表 
示 安 装 成 功 ， 如 果 出 现 “-bash: dddd: command not found” 表 示 安 装 失 败 。 

6. 安装 Hadoop 

1) 查看 上 传 的 文件 内 容 并 解压 安装 文件 

切换 到 hadoop 用 户 ， 并 进入 到 software 目录 ， 使 用 ls 命令 可 以 查看 Xftp 上 传 的 文件 
内 容 ， 通 过 tar 命令 解压 hadoop-2.6.5.tar.gz 压缩 文件 。 操 作 如 下 : 


root@Master001 -]# su -1 hadoop 


[hadoop@Master001 ~]$ cd software/ 

[hadoop@Master001 software]$ 1s 
jdk-8u131-linux-x64.tar.gz jdk1.8.0 131 
hadoop-2.6.5.tar.gz 

[hadoop@Master001 software]$ tar -zxf hadoop-2.6.5.tar.gz 

[hadoop@Master001 software]s 1s 
jdk-8u131-linux-x64.tar.gz jdk1.8.0 131 
hadoop-2.6.5.tar.gz hadoop-2.6.5 


2) 复制 Hadoop 安装 目录 


进入 到 hadoop-2.6.5 目录 ， 使 用 pwd 命令 打印 Hadoop 安装 路 径 ， 利 用 鼠标 选择 复制 
路 径 。 


hadoop@Master001 software]$ cd hadoop-2.6.5 
hadoop@Master001 hadoop-2.6.5]$ pwd 
/home/hadoop/software/hadoop-2. 6.5 


3) 配置 Hadoop 环境 变量 
团 换 到 root 用 户 ， 编 辑 profile 文件 ， 并 插入 Hadoop 配置 文件 。 操 作 如 下 : 


hadoop@Master001 hadoop-2.6.5]$ su -1 root 


密码 : 


root@Master001 ~]# vi /etc/profile 
插入 : 


#hadoop 

export HADOOP HOME=/home/hadoop/software/hadoop-2.6.5 
export PATH=$PATH:$HADOOP HOME/bin 

export PATH=$PATH:$HADOOP HOME/sbin 

export HADOOP MAPRED HOME-SHADOOP HOME 

export HADOOP COMMON HOME-SHADOOP HOME 

export HADOOP HDFS HOME-SHADOOP HOME 

export YARN HOME-SHADOOP HOME 

export HADOOP COMMON LIB NATIVE DIR-SHADOOP HOME/lib/native 
export HADOOP OPTS-"-Djava.library.path-SHADOOP HOME/lib" 
export JAVA LIBRARY PATH-SHADOOP HOME / lib/native:$J AVA LIBRARY PATH 


4) 使 环境 变量 生效 
[root@Master001 ~]# source /etc/profile 


5) 验证 Hadoop 安装 是 否 成 功 
输入 Hadoop 命令 ， 如 果 出 现 Hadoop 命令 相关 的 详细 信息 ,表示 安装 成 功 ， 如 果 出 现 
“bash: dddd: command not found”， 表 示 安 装 失败 。 5 
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6) 配置 core-site.xml 文件 
切换 到 hadoop 用 户 ， 进 入 到 hadoop-2.6.5/etc/hadoop/ 目 录 ， 编 辑 core-site xml 文件 。 


[root@Master001 ~]# su -1 hadoop 
[hadoop@Master001 ~]$ cd software/hadoop-2.6.5/etc/hadoop/ 
[hadoop@Master001 hadoop]$ 1s 
core-site.xml mapred-site.xml salves 
hadoop-env.cmd hdfs-site.xml yarn-site.xml 


[hadoop@Master001 hadoop]$ vi core-site.xml 
插入 : 


<configuration> 
<!-- 指 定 zookeeper 地 址 --> 
<property> 
<name>ha. zookeeper . quorum</name> 
<value>Slave001:2181, Slave002:2181, Slave003:2181</value> 
</property> 
<!-- 指 定 Hadoop 临 时 目录 --> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/home/hadoop/software/hadoop-2.6.5/tmp</value> 
</property> 
<!-- 指 定 Eclipse 访 问 端口 --> 
<property> 
«name»fs.defaultFS«/name» 
<value>hdfs://mycluster</value> 
</property> 
</configuration> 


7) 配置 hadoop-env.sh 文件 

编辑 hadoop-env.sh 文件 ， 修 改 java home 地 址 ，java_home 地 址 是 解压 的 JDK 地 址 ， 
配置 java home 是 为 了 使 用 Java 的 环境 。 

修改 : 

# The java implementation to use. 

export JAVA HOME-/home/hadoop/software/jdk1.8.0 131 

8) 配置 hdfs-site xml 文件 


hdfs-site.xml 文件 是 Hadoop 2.0 以 后 版 本 的 必 备 配置 文件 之 一 ， 可 以 在 hdfs-site.xml 
P 配 署 集 群 名 字 空 间 、 访 问 端口 、URL 地 址 、 故 障 转移 等 。 


n. 


[hadoop@Master001 hadoop]# vi hdfs-site.xml 


插入 : 


<configuration> 

<!-- 设 置 设备 备份 数量 --> 

<property> 
<name>dfs.replication</name> 
<value>3</value> 

</property> 

<!-- 指 定 高 可 用 集群 的 名 字 空 间 --> 

<property> 
<name>dfs .nameservices</name> 
<value>mycluster</value> 

</property> 

<!-- 指 定 NameNode 节 点 的 名 字 空间 --> 

<property> 
<name>dfs .ha.namenodes .mycluster</name> 
«value»nnl,nn2«/value» 

«/property» 

<!--rpc: 远程 调用 , 设置 第 一 个 远程 调用 的 地 址 和 端口 --> 

<property> 
«name»dfs.namenode.rpc-address.mycluster.nnl«/name» 
<value>Master001:9000</value> 

</property> 

<property> 
«name»dfs.namenode.rpc-address.mycluster.nn2«/name» 
«value»Master002:9000«/value» 

«/property» 

<!-- 设 置 网 页 访问 的 地 址 和 端口 --> 

<property> 
«name»dfs.namenode.http-address.mycluster.nnl«/name» 
<value>Master001:50070</value> 

</property> 

<property> 
«name»dfs.namenode.http-address.mycluster.nn2«/name» 
<value>Master002:50070</value> 

</property> 

<!-- 设 置 共 享 edits 的 存放 地 址 ， 将 共享 edits 文 件 存放 在 QJournal 集 群 中 的 

QJClusterH3* F--» 

<property> 
<name>dfs .namenode . shared.edits.dir</name> 
<value>qjournal://Slave001:8485;Slave002:8485;Slave003:8485/ 

QJCluster 

</value> 

</property> 

<!-- 设 置 JournalNode 节 点 的 edits 文 件 本 地 存放 路 径 ， 是 QJournal 真 实数 据 存放 路 

径 --> 

<property> 
<name>dfs .journalnode.edits.dir</name> 
<value>/home/hadoop/software/hadoop-2 .6.5/QJEditsData</value> 


</property> 
<!-- 开 启 自动 故障 转移 --> 第 
<property> 5 


«name»dfs.ha.automatic-failover.enabled«/name» 
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<value>true</value> 
</property> 
<!-- 设 置 HDFS 客 户 端 用 来 与 活动 的 namenode 节 点 联系 的 java 类 --> 
<property> 
<name>dfs.client.failover.proxy.provider.mycluster</name> 
«value»org.apache.hadoop.hdfs.server.namenode.ha.Configured 
FailoverProxyProvider</value> 
</property> 
<!-- 用 于 停止 活动 NameNode 节 点 的 故障 转移 期 间 的 脚本 。 保 证 任何 时 候 只 有 一 个 
NameNode 处 于 活动 状态 ; 
SShfence 参 数 : 采用 ssh 方 式 连接 活动 NameNode 节 点 ， 并 杀 掉 进程 ; 
shellMA: 表示 如 果 sshfence 执 行 失败 ， 在 执行 自 定义 的 she11 脚 本 ， 确 定 只 能 有 一 
个 NameNode 处 于 活动 状态 --> 
<property> 
«name»dfs.ha.fencing.methods«/name» 
«value» 
sshfence 
shell (/home/hadoop/software/hadoop-2.6.5/ensure. sh) 
</value> 
</property> 
<!-- 为 了 实现 SSH 登 录 杀 掉 进 程 ， 还 需要 配置 免 密码 登录 的 SSH 密 匙 信息 --> 
<property> 
«name»dfs.ha.fencing.ssh.private-key-files«/name» 
«value»/home/hadoop/.ssh/id rsa</value> 
«/property» 
<!-- 设 置 ssh 连 接 超时 时 间 --> 
<property> 
«name»dfs.ha.fencing.ssh.connect-timeout«/name» 
<value>30000</value> 
</property> 
</configuration> 


9) 配置 mapred-site.xml 文件 
在 Hadoop 包 里 是 没有 mapred-site.xml 文件 的 , 需要 通过 mapred-site.xml.template 模板 
文件 复制 出 mapred-site.xml 文件 。 操 作 如 下 : 


[hadoop@Master001 hadoop]# cp mapred-site.xml.template mapred-site.xml 
[hadoop@Master001 hadoop]# vi mapred-site.xml 


TEN: 


«configuration» 
<!-- 设 置 jar 程 序 启动 Runner 类 的 main 方 法 运行 在 Yarn 集群 中 --> 
<property> 
<name>mapreduce. framework.name</name> 
<value>yarn</value> 
</property> 


</configuration> 


10) 配置 slaves 文件 
Hadoop 集群 中 所 有 的 DataNode 节点 都 需要 写 入 slaves 文件 中 ， 因 为 它 是 用 来 指定 存 
储 数据 的 节点 文件 ，Master 会 读 取 slaves 文件 来 获取 存储 信息 ， 根 据 slaves 文件 来 做 资源 


«MEE: 
(1) slaves 文件 名 全 部 是 小 写 ， 有 很 多 初学 者 使 用 Vi Slaves 来 编辑 slaves 文件 ， 它 将 
会 在 hadoop 目录 中 重新 创建 一 个 首 字母 为 大 写 的 slaves 文件 ， 这 样 是 错误 的 。 
(2) slaves 文件 打开 后 里 面 有 一 个 “localhost?， 这 个 localhost 需要 删除 ， 如 果 没 有 删 
除 ， 集 群 会 把 Master 也 当做 DataNode 节点 ， 这 样 会 造成 Master 节点 负载 过 重 。 


[hadoop@Master001 hadoop]# vi slaves 


WBR: 


localhost 
插入 : 


Slave001 
Slave002 
Slave003 


11) 配置 yarn-site.xml 
yarn-site.xml 文件 是 ResourceManager 进程 相关 的 配置 参数 。 


[hadoop@Master001 hadoop]# vi yarn-site.xml 
插入 : 


<configuration> 
<!-- 设 置 ResourceManager 在 哪 台 节 点 --> 
<property> 
<name>yarn. resourcemanager.hostname</name> 
<value>Master001</value> 
</property> 
«1-- Reduce 取 数据 的 方式 是 mapreduce shuffle --> 
<property> 
«name»yarn.nodemanager.aux-services«/name» 
<value>mapreduce shuffle</value> 
</property> 
</configuration> 


7. 安装 SSH 

SSH 是 一 种 远程 传输 通信 协议 , 用 于 两 台 或 多 台 节 点 之 间 的 数据 传输 。 通过 yum 方式 
在 线 安装 SSH，yum 是 在 线 安装 工具 ， 因 此 使 用 yum 安装 时 必须 连接 网 络 。yum 是 一 个 
Shell 前 端 软件 包 管 理 器 ， 它 能 够 从 yum 服务 器 自动 下 载 pm 包 然 后 安装 ， 一 次 安装 完 所 
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有 需要 的 软件 包 ， 不 必 一 次 次 地 下 载 ， 非 常 简单 方便 。 
1) 在 线 安 装 yum 工具 
yum 工具 属于 root 用 户 工 具 ， 所 以 需要 切换 到 root 用 户 进行 在 线 安装 。 


[hadoop@Master001 hadoop]$ su -l root 
密码 : 
[root@Master001 -]# 


2) 查找 yum 库 有 哪些 SSH 软件 的 pm 包 
在 安装 SSH 之 前 需要 先 查 找 yum 库 有 哪些 SSH 软件 的 rpm 包 : 


[root@Master001 ~]# yum list | grep ssh 


openssh.x86 64 5.3p1-84.1.e16 updates 
openssh-server.x86 64 5.3p1-123.e16 9 updates 
openssh-clients.x86 64 5.:3p1-123.e16 9 updates 


3) 使 用 yum 工具 在 线 安 装 server 和 clients 软件 


[root@Master001 ~]# yum install -y openssh-clients.x86 64 
[root@Master001 ~]# yum install -y openssh-server.x86 64 


安装 过 程 如 图 5.12 所 示 。 


[root@Master001 -]# yum install -y openssh-clients.x86 64 
Loaded plugins: fastestmirror, security 
Loading mirror speeds from cached hostfile 
* base: mirrors.sohu.com 
* extras: mirrors.sohu.com 
* updates: mirrors.sohu.com 
Setting up Install Process 
Resolving Dependencies 
--> Running transaction check 
---» Package openssh-clients.x86 64 0:5.3p1-123.e16 9 will be installed 
--» Finished Dependency Resolution 


Dependencies Resolved 


Package Arch Version Repository Size 
Installing: 
openssh-clients x86 64 5.3p1-123.e16 9 updates 444 k 


Transaction Summary 


Install 1 Package (s) 


图 5.12 


4) 验证 SSH 是 否 安 装 成 功 
验证 方法 一 : 输入 ssh 命令 ， 如 果 出 现 ssh 命令 的 详细 信息 表示 安装 成 功 ， 如 果 出 现 


"-bash: dddd: command not found" 则 表示 安装 失败 。 


[root@Master001 -]# ssh 

usage: ssh [-1246AaCfgKkMNngsTtVvXxYy] [-b bind address] [-c cipher spec] 
[-D [bind address:]port] [-e escape char] [-F configfile] 
[-I pkcs11] [-i identity file] 
[-L [bind address:]port:host:hostport] 
[-1 login name] [-m mac spec] [-O ctl cmd] [-o option] [-p port] 
[-R [bind address:]port:host:hostport] [-S ctl path] 
[-W host:port] [-w local tun[:remote tun]] 
[user@]hostname [command] 


验证 方法 二 : 使 用 rpm 工具 验证 。 输 入 rpm -qa | grep ssh 命令 查找 已 经 安装 的 SSH 相 
关 程 序 ， 如 果 出 现 server 和 clients 表示 安装 成 功 。 


[root@Master001 ~]# rpm -qa | grep ssh 
openssh-server-5.3p1-123.e16 9.x86 64 
openssh-clients-5.3p1-123.e16 9.x86 64 
libssh2-1.4.2-1.e16.x86 64 
openssh-5.3p1-123.e16 9.x86 64 


5.2.3. 步骤 3 一 一 复制 虚拟 机 
现在 已 经 安装 好 一 台 节 点 虚拟 机 的 配置 ， 其 他 4 台 节 点 虚拟 机 可 以 通过 复制 的 方式 来 
安装 。 在 2.1 节 “ 系 统 的 安装 ”中 提 到 选择 安装 目录 ， 这 个 安装 目录 就 是 整个 虚拟 机 文件 
目录 。 复制 这 个 目录 就 可 以 创建 出 男 一 个 虚拟 机 , 但 在 复制 目录 之 前 需要 先 把 虚拟 机 关机 。 
1. 关闭 虚拟 机 ( halt 命令 需要 root 权限 ) 


[root@Master001 -]# halt 


2. 复制 虚拟 机 
复制 出 另外 4 台 虚 拟 机 ， 并 把 复制 的 文件 夹 重新 命名 为 Master001、Master002、 
Slave001、Slave002、Slave003 方便 管理 ， 如 图 5.13 所 示 。 


i dd 


Master001  Master002  Slave001 Slave002 Slave003 


图 513 


3. 打开 虚拟 机 

1) 通过 菜单 打开 虚拟 机 

通过 “文件 ”一 “打开 ”选择 复制 的 虚拟 机 来 打开 虚拟 机 。 为 了 方便 管理 需 将 虚拟 名 
字 修 改 为 文件 夹 名 称 ， 如 图 5.14 所 示 。 
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文件 昌 #80 ZEV 虚拟 机 (M) BRED AH) 
8-1 * ginaw ao 


会 主页 x| GI Master001 X 


vmware 


Workstal 


库 x 
Q GAMBA ABET v 


图 5.14 


2) 启动 虚拟 机 
单 击 左边 虚拟 机 名 称 ， 待 右边 出 现 对 应 的 界面 后 ， 单 击 “ 开 启 此 虚拟 机 ”按钮 打开 虚 
拟 机 ， 如 图 5.15 所 示 。 


在 此 处 键入 内 容 进行 搜索 v 
gl 我 的 计算 机 
E Master001 
E Master002 
Eh Slave001 
Ei Slave002 
EJ Slave003 


3) 选择 “我 已 复制 该 虚拟 机 ” 

每 一 台 计 算 机 都 有 一 个 唯一 的 MAC 地 址 ， 虚 拟 机 也 一 样 。 虽 然 它 是 虚拟 状态 的 ， 但 
它 同样 有 内 存 、 处 理 器 、 硬 盘 和 MAC 地 址 等 。 虚 拟 机 是 通过 复制 出 男 一 台 一 模 一 样 的 虚 
拟 机 ， 包 括 MAC 地 址 ， 所 以 需要 在 启动 副本 虚拟 机 时 选择 “我 已 复制 该 虚拟 机 ”按钮 来 
告诉 VMware 平台 “我 这 台 虚 拟 机 需要 重新 生成 一 个 新 的 MAC 地 址 ”。 如 果 单 击 “ 我 已 移 
动 该 虚拟 机 ”按钮 ， VMware 平台 将 不 会 为 新 虚拟 机 生成 新 的 MAC 地 址 ， 如 图 5.16 所 示 。 


@ 此 虚拟 机 可 能 已 被 移动 或 复制 。 
为 了 配置 特定 的 管理 和 网络 功能 ，VMware Workstation 需要 知 
道 是 否 已 移动 或 复制 了 此 虚拟 机 。 
如 果 您 不 知道 ， 请 回答 "我 已 复制 该 虚拟 机 (P)”。 


修改 虚拟 配置 
1) 查看 MAC 地 址 
修改 MAC 地 址 之 


的 一 条 为 最 新 的 MAC 地 址 ， 


前 需要 至 


到 70-persistent-net.reles 文件 去 查看 最 新 
并 记 住 ATTR 和 NAME 的 值 ， 如 图 


新 的 MAC 地 址 ， 最 后 


5.17 所 示 。 


[root@Master001 ~]# cat /etc/udev/rules.d/70-persistent-net.rules 


You can modify it, as 


line, and change only the value of 


PCI device Bx8886 :Bx188f 
J EM--"net" 
rR{type}==" 


» ACTION 


# PCI device 8x8886:8x188f 


"net", ACTION 
ZUM 


SUBSYSTEM- 
b", ATTR(type? 


PCI device 8Bx8886 :8x1l88f (e 


# PCI device 8x8986 : 
SUBSYSTEM= 

6" 

TrootlS EW: 


KERNEL 


KERNEL 


Bx168f 


long as you keep each rule on a single 
the NAME: key. 


(e1888) 
“add”, DRIVERS "y 
eth*", NAME-"ethB8" 


ATTR (address? 


(e1888) 
=="add", DRIVERS 
eth”, NAM 


1888) 
DRIUERS 
NAMI 


add", 
ethx", 


(e1888) 
add DRIVERS 
ethx", NAME= eth3" 


ATTR{addres 


图 5.17 


修改 MAC Jl hb RI IP 地 址 


需要 到 profile 文件 中 修 
改正 地址， 如 图 5.18 所 示 。 


“68 :8c 


ATTRíaddress}=="88 :8c 


改 最 新 的 MAC 地 址 和 网 络 名 称 ， 按 之 前 约定 的 配置 


:29:9 


:4b:da:c 


规则 来 修 


[root@Master001 ~]# vi /etc/sysconfig/network-scripts/ifcfg-ethO 


GATEWAY-192.168.153.2 


TYPE= 


UUID= 


Ethernet 
d6381ecf -b648-4e97-83ea-d9ba9185888c 


NM | CONTROL 
BOOTPROTO 


3) 修改 主机 名 
按 之 前 约定 的 配置 
[root@Master001 ~]# 


HOSTNAME-S1ave003 


规则 来 修改 主机 名 。 


Vi /etc/sysconfig/network 
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4) 使 修改 生效 
如 果 只 是 修改 profile 文件 ， 可 以 重启 网 络 服务 即 可 使 修改 生效 。 如 果 修 改 主机 名 ， 


要 重启 虚拟 机 才能 生效 。 
[root@Master001 -]# reboot 


5) 验证 修改 是 否 成 功 


如 果 登 录 主 机 名 变 成 修改 的 主机 名 表示 主机 名 修改 成 功 ， 如 图 5.19 所 示 。 


CentOS > 6.4 (Final) 
Kernel 2. 58.e16.x86_64 on an x86_64 


Slave883 |login: _ 


输入 用 户 名 和 密码 登录 后 ， 输 入 “ifeonfig” 命 令 ， 如 果 出 现 修改 后 的 网 络 名 称 和 IP 
地 址 表示 静态 IP 修改 成 功 ， 如 图 5.20 所 示 。 
[rootB@SlaveB83 ~]# ifconf 


inet add 
inet6 addr 
G ML 
dropped 
8 dropped:8 overruns 
9 txqueuelen: 1688 
3 (583.8 b) :s:1364 (1.3 KiB) 


Link encap:Local Loopback 
inet addr: 8.8.1 Mask:255.6.6.8 
inet6 ad :1/128 Scope:Host 
UP LOOPB RUNNING MTU:16436 Metric:1 
RX packe > :B dropped:B overruns:B fram 
TX packe er @ dropped:@ overruns:@ carrier:8 
<queuelen:8 
(8.8 b) TX bytes:B (8.8 b) 


5， 修 改 其 他 虚拟 机 
依次 执行 5.2.3 节 中 的 复制 虚拟 机 操作 ， 修 改 其 他 几 E 当 所 有 虚拟 机 都 修改 


完成 后 ， 可 以 互相 ping 卫 地 址 或 主机 名 来 验证 内 网 是 否 联通 


[hadoop@Slave003 ~]$ ping 192.168.153.101 
PING 192.168.153.101 (192.168.153.101) 56(84) bytes of data. 
64 bytes from 192.168.153.101: icmp seq-1 tt1-64 time-0.797 ms 
64 bytes from 192.168.153.101: icmp seq=2 tt1-64 time=0.774 ms 
^C 
=== 192:168.153:-101 ping statistics! 二 


2 packets transmitted, 2 received, 0% packet loss, time 1876ms 


rtt min/avg/max/mdev = 0.774/0.785/0.797/0.030 ms 


[hadoop@Slave003 ~]$ ping Master001 
PING Master001 (192.168.153.101) 56(84) bytes of data. 
64 bytes from Master001 (192.168.153.101): icmp seq-1 ttl-64 time=1.69 ms 
64 bytes from Master001 (192.168.153.101): icmp seq=2 tt1-64 time=0.703 ms 
ac 
--- Master001 ping statistics --- 
2 packets transmitted, 3 received, 0$ packet loss, time 2391ms 
rtt min/avg/max/mdev = 0.703/1.061/1.697/0.452 ms 


524 步骤 4 设置 免 密 


安装 Hadoop 之 前 ， 由 于 集群 中 大 量 主机 进行 分 布 式 计算 需要 相互 进行 数据 通信 ， 服 
务 器 之 间 的 连接 需要 通过 SSH 来 进行 ， 所 以 要 安装 SSH 服务 。 默 认 情 况 下 通过 SSH 登录 
服务 器 需要 输入 用 户 名 和 密码 进行 连接 ， 如 果 不 配 置 免 密码 登录 ， 每 次 启动 Hadoop 都 要 
输入 密码 来 访问 每 台 机 器 的 DataNode， 因 为 Hadoop 集群 有 上 百 或 者 上 干 台 机 器 ， 靠 人 力 
输入 密码 工程 浩大 ， 所 以 一 般 都 会 配置 SSH 的 免 密 码 登 录 。 在 Hadoop 集群 中 Master 节点 
需要 对 所 有 节点 进行 访问 ， 了 解 每 个 节点 的 健康 状态 ， 所 以 只 需要 对 Master 做 免 密 设 置 ， 
该 集群 是 高 可 用 集群 ， 有 两 个 Master。 这 两 个 Master 都 需要 生成 自己 的 私密 ,然后 对 所 有 
节点 (包括 自己 ) 传输 密 钥 ， 以 Master001 为 例 ，Master002 只 需要 执行 Master001 相同 操 
作 即 可 。 具 体操 作 如 下 。 
l. "ESSI 
密 钥 就 像 是 进入 一 遍 门 的 钥匙 ,生成 密 钥 就 是 生成 这 把 钥匙 。 由 于 要 对 hadoop 用 户 进 
行 免 密 设 置 ， 所 以 需要 切换 到 hadoop 用 户 ， 并 回 到 该 用 户 的 家 目录 。 
执行 ssh-keygen -t rsa -P 命令 后 ， 将 在 /home/hadoop/.ssh/ 目 录 下 以 rsa 方式 生成 id_rsa 
的 密 钥 。 
[hadoop@Master001 ~]$ cd ~ 
[hadoop@Master001 ~]$ ssh-keygen -t rsa -P '' 
Generating public/private rsa key pair. 
Enter file in which to save the key (/home/hadoop/.ssh/id rsa) : 
Your identification has been saved in /home/hadoop/.ssh/id rsa. 
Your public key has been saved in /home/hadoop/.ssh/id rsa.pub. 
The key fingerprint is: 
2c:a9:91:36:4b:18:e6:09:60:£9:1a:22:23:3b:d6:af hadoop@Master001 
The key's randomart image is: 


4------- [ RSA 2048]------- * 
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2. 对 所 有 节点 进行 免 密 


将 密 钥 分 发 给 集群 中 所 有 节 


《包括 自己 )， 就 免 去 输入 密码 去 访问 其 他 虚拟 机 。 执 行 


ssh-copy-id 命令 后 ,会 将 id_rsa 中 的 密 钥 传输 到 目标 虚拟 机 的 /home/hadoop/ .ssh/authorized keys 


文件 


H 


[hadoop@Master001 -]$ ssh-copy-id Master001 


hadoop@master001's password: 

Now try logging into the machine, with "ssh 'Master001'", and check in: 
.ssh/authorized keys 

to make sure we haven't added extra keys that you weren't expecting. 


[hadoop@Master001 ~]$ ssh-copy-id Master002 


hadoop@master002's password: 

Now try logging into the machine, with "ssh 'Master002'", and check in: 
.ssh/authorized keys 

to make sure we haven't added extra keys that you weren't expecting. 


[hadoop@Master001 ~]$ ssh-copy-id Slave001 


hadoop@slave001's password: 

Now try logging into the machine, with "ssh 'Slave001'", and check in: 
.ssh/authorized keys 

to make sure we haven't added extra keys that you weren't expecting. 


[hadoop@Master001 ~]$ ssh-copy-id Slave002 


hadoop@slave002's password: 

Now try logging into the machine, with "ssh 'Slave002'", and check in: 
.ssh/authorized keys 

to make sure we haven't added extra keys that you weren't expecting. 


[hadoop@Master001 ~]$ ssh-copy-id Slave003 


hadoop@slave003's password: 

Now try logging into the machine, with "ssh 'Slave003'", and check in: 
.ssh/authorized keys 

to make sure we haven't added extra keys that you weren't expecting. 


3. 验证 免 密 设 置 是 否 成 功 
验证 免 密 是 免 密 设 置 最 关键 的 一 步 ， 如 果 不 输入 密码 就 能 访问 到 目标 虚拟 机 ， 表 示 免 
密 设置 成 功 。 


hadoop@Master001 ~]$ ssh Master001 


Last login: Tue Dec 19 14:44:02 2017 from 192.168.153.1 


hadoop@Master001 ~]$ exit 


logout 
Connection to Master001 closed. 


hadoop@Master001 ~]$ ssh Master002 


Last login: Fri Dec 15 08:38:51 2017 from 192.168.153.1 


hadoop@Master002 ~]$ exit 


logout 
Connection to Master002 closed. 


hadoop@Master001 ~]$ ssh Slave001 


Last login: Fri Dec 15 08:38:54 2017 from 192.168.153.1 


hadoop@Slave001 -]$ exit 


logout 

Connection to Slave001 closed. 
[hadoop@Master001 ~]$ ssh Slave002 

Last login: Fri Dec 15 08:38:56 2017 from 192.168.153.1 
[hadoop@Slave002 ~]$ exit 

logout 

Connection to Slave002 closed. 
[hadoop@Master001 ~]$ ssh Slave003 

Last login: Tue Dec 19 14:44:05 2017 from 192.168.153.1 
[hadoop@Slave003 ~]$ exit 


logout 
Connection to Slave003 closed. 
[hadoop@Master001 ~]$ 


5.2.5 Sb JE S— € Zookeeper 


XT Zookeeper 在 大 数据 集群 中 的 作用 和 安装 的 讲解 视频 可 扫描 二 维 码 

ZooKeeper 是 一 个 分 布 式 的 ， 开 放 源 码 的 分 布 式 应 用 程序 协调 服务 ， 它 是 一 个 为 分 布 
式 应 用 提供 一 致 性 服务 的 软件 ， 提 供 的 功能 包括 : 配置 维护 、 域 名 服务 、 分 布 式 同步 、 组 
服务 等 。Zookeeper 在 Hadoop 大 数据 集群 中 提供 Master 管理 和 元 数据 存储 。Zookeeper 是 
以 集群 的 形式 出 现 ， 一 般 为 3 台 或 者 5 台 ， 它 可 以 通过 选举 机 制 来 选取 Master， 保 证 两 个 
Master 中 一 台 为 active 状态 , 另外 一 台 为 standby 状态 。 它 还 存储 NameNode 的 eidlogs (tt 
照 )， 用 来 减轻 Master 负担 ， 当 active 状态 Master 死机 后 ，Zookeeper 通过 选举 组 成 员 选 
出 一 个 新 的 Master， 新 的 Master 通过 实时 更 新 的 fsimage 来 恢复 所 有 数据 。 集 群 采用 3 A 
Zookeeper， 分 别 安装 在 Slave001、Slave002、Slave003 中 。 

1. 上 传 Zookeeper 安装 文件 

利用 Xftp 工具 将 zookeeper-3.4.10.tar.gz 安装 文件 分 别 上 传 到 Slave003 的 hadoop 用 户 
的 software 目录 中 ， 如 图 5.21 所 示 。 


O 
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2. 配置 Zookeeper 
(1) 进入 到 hadoop 用 户 software 目录 下 ， 解 压 zookeeper-3.4.10.tar.gz 文件 。 


[hadoop@Slave003 software]S tar -zxf zookeeper-3.4.10.tar.gz 


(2) 进入 Zookeeper 的 conf 目录 , 将 zoo sample.cfg 模板 复制 出 zoo.cfg 文件 ， 并 编辑 
zoo.cfg 文件 。 


[hadoop@Slave003 ~]$ cd software/zookeeper-3.4.10/conf/ 
[hadoop@Slave003 conf]$ 1s 

configuration.xsl log4j.properties zoo sample.cfg 
[hadoop@Slave003 conf]$ cp zoo sample.cfg zoo.cfg 
[hadoop@Slave003 conf]$ 1s 

configuration.xsl 1log4j.properties zoo.cfg zoo sample.cfg 
[hadoop@Slave003 conf]$ vi zoo.cfg 


改写 : 


# 快 照 存放 目 录 
dataDir=/home/hadoop/software/zookeeper-3.4.10/tmp/zookeeper 


插入 : 


# 服 务 器 名 称 与 地 址 : 集群 信息 (服务 器 编号 ， 服 务 器 地 址 ，LF 通 信 端 口 ， 选 举 端 口 )， 这 个 配置 项 
的 书写 格式 比较 特殊 ， 规 则 如 下 : server.N-YYY:A:B 

server. 1-Slave001 : 2888 : 3888 

server.2-Slave002 : 2888 : 3888 

server. 3-Slave003 : 2888 : 3888 


(3) 创建 /home/hadoop/software/zookeeper-3.4.10/tmp/zookeeper 文件 夹 。 


[hadoop@Slave003 conf]$ mkdir -p /home/hadoop/software/zookeeper-3.4.10/ 
tmp/zookeeper 

[hadoop@Slave003 conf]$ cd /home/hadoop/software/zookeeper-3.4.10/ tmp/ 
zookeeper 

[hadoop@Slave003 zookeeper]$ 


(4) 创建 myid 文件 。 
[hadoop@Slave003 zookeeper]$ vi myid 
插入 : 


3 


3. 传输 到 Zookeeper 配置 
(1) 将 Slave003 中 的 zookeeper-3.4.10 目录 传送 到 Slave001 和 Slave002. 


[hadoop@Slave003 conf]$ cd ~/software/ 


[hadoop@Slave003 software]$ 1s 
hadoop-2.6.5 jdk1.8.0 131 zookeeper-3.4.10 
[hadoop@Slave003 software]$ scp -r zookeeper-3.4.10/ Slave003:-/software/ 


(2) 修改 myid。 
将 Slave001 和 Slave002 的 /software/zookeeper-3.4.10/tmp/zookeeper 目录 下 的 myid 分 别 


修改 为 1 和 2。 


[hadoop@Slave001 ~]$ cd -/software/zookeeper-3.4.10/tmp/zookeeper 
[hadoop@Slave001 zookeeper]$ vi myid 


NG: 


aL 
[hadoop@Slave002 ~]$ cd -/software/zookeeper-3.4.10/tmp/zookeeper 


[hadoop@Slave002 zookeeper]$ vi myid 
UG: 
a 


4. 启动 Zookeeper 

HF Zookeeper 没有 配置 环境 变量 ， 要 想 启动 Zookeeper 需要 进入 到 Zookeeper 的 bin 
目录 , 找到 zkServer.sh 文件 。zkServer sh 文件 是 Zookeeper 服务 文件 , 可 以 通过 zkServer.sh 
文件 查看 Zookeeper 服务 状态 、 启 动 Zookeeper 集群 和 停止 Zookeeper 集群 。 


hadoop@Slave001 ~]$ cd ~/software/zookeeper-3.4.10/bin/ 
hadoop@Slave001 bin]$ 1s 
zkCli.cmd “e zkServer.cmd zkServer.sh zookeeper.out 
hadoop@Slave001 bin]$ ./zkServer.sh start 
ZooKeeper JMX enabled by default 
Using config: /home/hadoop/software/zookeeper-3.4.10/bin/../conf/zoo.cfg 
Starting zookeeper … STARTED 
hadoop@Slave001 bin]$ jps 
1782 QuorumPeerMain 
1302 Jps 


hadoop@Slave002 ~]$ cd -/software/zookeeper-3.4.10/bin/ 


hadoop@Slave002 bin]$ 1s 
ZkCli.cmd **  ZkServer.cmd zkServer.sh zookeeper.out 


hadoop@Slave002 bin]$ ./zkServer.sh start 
ZooKeeper JMX enabled by default 
Using config: /home/hadoop/software/zookeeper-3.4.10/bin/../conf/zoo.cfg 
Starting zookeeper … STARTED 

hadoop@Slave002 bin]$ jps 
3788 QuorumPeerMain 第 
1206 Jps 5 
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[hadoop@Slave003 ~]$ cd -/software/zookeeper-3.4.10/bin/ 


[hadoop@Slave003 bin]$ ls 
zkCli.cmd Kag zkServer.cmd zkServer.sh zookeeper.out 


[hadoop@Slave003 bin]$ ./zkserver.sh start 
ZooKeeper JMX enabled by default 
Using config: /home/hadoop/software/zookeeper-3.4.10/bin/../conf/zoo.cfg 
Starting zookeeper … STARTED 

[hadoop@Slave003 bin]$ jps 


1788 QuorumPeerMain 
1806 Jps 
5.2.6 ”步骤 6 一 一 启动 Hadoop 集群 Ga 
关于 启动 Hadoop 集群 的 讲解 视频 可 扫描 二 维 码 观看 。 E 


1. X14] journalnode 进程 ae 

高 可 用 集群 格式 化 NameNode 时 需要 到 Zookeeper 每 个 节点 上 分 别 启动 

journalnode 进程 。 

[hadoop@Slave001 bin]$ hadoop-daemon.sh start journalnode 
starting journalnode, logging to /home/hadoop/software/hadoop-2.6.5/ 
logs/hadoop-hadoop-journalnode-Slave001.out 

[hadoop@Slave001 bin]$ jps 


1895 Jps 
1849 JournalNode 
1788 QuorumPeerMain 


[hadoop@Slave002 bin]$ hadoop-daemon.sh start journalnode 
starting journalnode, logging to /home/hadoop/software/hadoop-2.6.5/ 
logs/hadoop-hadoop-journalnode-Slave002.out 

[hadoop@Slave002 bin]$ jps 


1895 Jps 
1849 JournalNode 
1788 QuorumPeerMain 


[hadoop@Slave003 bin]$ hadoop-daemon.sh start journalnode 
starting journalnode, logging to /home/hadoop/software/hadoop-2.6.5/ 
logs/hadoop-hadoop-journalnode-Slave003.out 
[hadoop@Slave003 bin]$ jps 
1895 Jps 
1849 JournalNode 


1788 QuorumPeerMain 


2. 在 Master001 中 格式 化 NameNode 
在 Master001 中 格式 化 NameNode 会 生成 ~/software/hadoop-2.6.5/tmp Hak, iX Ho 


sn 


存放 版 本 号 和 元 数据 等 相关 信息 。 
[hadoop@Master001 ~]$ hdfs namenode -format 
3. [X5 tmp 文件 到 其 他 节点 


[hadoop@Master001 ~]$ cd ~/software/hadoop-2.6.5/ 
[hadoop@Master001 hadoop-2.6.5]5 1s 


bin (AH KOS sbin share tmp 
[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Master002:~/software/ hadoop-2.6.5/ 
VERSION 100% 206 0.2KB/s 00:00 
fsimage 0000000000000000000 100% 323 0.3KB/s 00:00 
fsimage 0000000000000000000.md5 100% 62 0.1KB/s 00:00 
seen txid 100% 2 0.0KB/s 00:00 
[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Slave001:~/software/ hadoop-2.6.5/ 
VERSION 100% 206 0.2KB/s 00:00 


[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Slave002:~/software/ hadoop-2.6.5/ 
VERSION 100% 206 0.2KB/s 00:00 

[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Slave003:~/software/ hadoop-2.6.5/ 
VERSION 100% 206 0.2KB/s 00:00 


4. 启动 hdfs 
启动 hdfs 只 需要 在 Master001 中 执行 start-dfs.sh 即 可 。 它 分 别 会 在 Master001 和 
Master002 中 启动 namenode XEFE, 7E Slave001、Slave002 和 Slave003 中 启动 datanode 进程 。 


[hadoop@Master001 ~]$ start-dfs.sh 
Starting namenodes on [Master001 Master002] 
Master001: starting namenode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-namenode-Master001.out 
Master002: starting namenode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-namenode-Master002.0ut 
Slave002: starting datanode, logging to /home/hadoop/software/hadoop- 
2.6.5/logs/hadoop-hadoop-datanode-Slave002.out 
Slave003: starting datanode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-datanode-Slave003.out 
Slave001: starting datanode, logging to /home/hadoop/software/hadoop- 
2.6.5/logs/hadoop-hadoop-datanode-Slave001.out 
Starting journal nodes [Slave001 Slave002 Slave003] 
Slave003: starting journalnode, logging to /home/hadoop/software/ 
hadoop-2.6.5/10gs/hadoop-hadoop-journalnode-Slave003.out 
Slave001: starting journalnode, logging to /home/hadoop/software/ 


hadoop-2.6.5/logs/hadoop-hadoop-journalnode-Slave001.out 
Slave002: starting journalnode, logging to /home/hadoop/software/ 5 
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hadoop-2.6.5/logs/hadoop-hadoop-journalnode-Slave002.out 

Starting ZK Failover Controllers on NN hosts [Master001 Master002] 
Master002: starting zkfc, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-zkfc-Master002.out 

Master001: starting zkfc, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-zkfc-Master001.out 


5. 启动 MapReduce 
启动 MapReduce 只 需要 在 Master001 中 执行 start-yarn.sh 即 可 。 它 分 别 会 在 Master001 
中 启动 resourcemanager 进程 , 在 Slave001 , Slave002 和 Slave003 中 启动 nodemanager 进程 。 


[hadoop@Master001 ~]$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-resourcemanager-Master001.out 
Slave003: starting nodemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-nodemanager-Slave003.out 
Slave001: starting nodemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-nodemanager-Slave001.out 
Slave002: starting nodemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-nodemanager-Slave002.out 


6， 验 证 集群 是 否 成 功 局 动 
1) 方法 一 : 查看 进程 
当 集群 启动 成 功 后 每 个 节点 中 都 有 一 些 必须 存在 的 进程 。 具 体 进 程 如 下 : 


[hadoop@Master001 ~]$ jps 
3766 Jps 
3510 ResourceManager 
3399 DFSZKFailoverController 
3118 NameNode 


[hadoop@Master002 ~]$ jps 
2129 NameNode 
2289 Jps 
2230 DFSZKFailoverController 


[hadoop8Slave001 ~]$ jps 
2610 NodeManager 
2500 JournalNode 
2358 QuorumPeerMain 
2745 Jps 


[hadoop@Slave002 ~]$ jps 
2675 Jps 
2549 NodeManager 


2439 JournalNode 


2297 QuorumPeerMain 


[hadoop@Slave003 ~]$ jps 
2731 Jps 
2611 NodeManager 
2501 JournalNode 
1788 QuorumPeerMain 


2) 方法 二 : 查看 HDFS 文件 
在 任意 节点 输入 “hadoop fs -ls /” 命 令 查看 hdfs 文件 。 如 果 没 有 报错 警告 可 忽略 )， 
说 明 集 群 启动 成 功 。 


[hadoop@Slave002 ~]$ hadoop fs -ls / 
17/12/19 17:11:42 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where 
applicable 

[hadoop@Slave002 ~]$ 


527 正常 启动 顺序 


格式 化 NameNode 只 是 在 第 一 次 启动 和 非法 关机 导致 版 本 号 不 一 致 时 使 用 。 下 面 将 讲 
解 正 常 时 大 数据 集群 的 启动 顺序 。 

1. 启动 Zookeeper 

分 别 进入 到 Zookeeper 的 bin 目录 启动 Zookeeper 服务 。 


hadoop@Slave001 ~]$ cd software/zookeeper-3.4.10/bin/ 

hadoop@Slave001 bin]$ ./zkServer.sh start 
ZooKeeper JMX enabled by default 
Using config: /home/hadoop/software/zookeeper-3.4.10/bin/../conf/zoo.cfg 
Starting zookeeper … STARTED 

hadoop@Slave002 ~]$ cd software/zookeeper-3.4.10/bin/ 

hadoop@Slave002 bin]$ ./zkServer.sh start 
ZooKeeper JMX enabled by default 
Using config: /home/hadoop/software/zookeeper-3.4.10/bin/../conf/zoo.cfg 
Starting zookeeper * STARTED 

hadoop@Slave003 ~]$ cd software/zookeeper-3.4.10/bin/ 

hadoop@Slave003 bin]$ ./zkServer.sh start 
ZooKeeper JMX enabled by default 
Using config: /home/hadoop/software/zookeeper-3.4.10/bin/../conf/zoo.cfg 
Starting zookeeper … STARTED 


2. 启动 HDFS 
在 Master001 节点 下 启动 start-dfs.sh. 第 
[hadoop@Master001 ~]$ start-dfs.sh 5 
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Starting namenodes on [Master001 Master002] 

Master001: starting namenode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-namenode-Master001.out 

Master002: starting namenode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-namenode-Master002.0out 

Slave002: starting datanode, logging to /home/hadoop/software/hadoop- 
2.6.5/logs/hadoop-hadoop-datanode-Slave002.out 

Slave003: starting datanode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-datanode-Slave003.out 

Slave001: starting datanode, logging to /home/hadoop/software/hadoop- 
2.6.5/logs/hadoop-hadoop-datanode-Slave001.out 

Starting journal nodes [Slave001 Slave002 Slave003] 

Slave003: starting journalnode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-journalnode-S1ave003.out 

Slave001: starting journalnode, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-journalnode-Slave001.out 

Slave002: starting journalnode, logging to /home/hadoop/software/hadoop- 
2.6.5/logs/hadoop-hadoop-journalnode-Slave002.out 

Starting ZK Failover Controllers on NN hosts [Master001 Master002] 
Master002: starting zkfc, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/hadoop-hadoop-zkfc-Master002.out 

Master001: starting zkfc, logging to /home/hadoop/software/hadoop- 
2.6.5/logs/hadoop-hadoop-zkfc-Master001.out 


3. 启动 MapReduce 
在 Master001 节点 下 启动 start-yarn.sh。 


[hadoop@Master001 ~]$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-resourcemanager-Master001.out 
Slave003: starting nodemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-nodemanager-Slave003.out 
Slave001: starting nodemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-nodemanager-Slave001.out 
Slave002: starting nodemanager, logging to /home/hadoop/software/hadoop- 
2.6.5/10gs/yarn-hadoop-nodemanager-Slave002.out 


4. 启动 成 功 后 出 现 的 进程 
启动 成 功 后 ， 在 各 个 节点 分 别 会 出 现 以 下 进程 。 


[hadoop@Master001 ~]$ jps 
3766 Jps 
3510 ResourceManager 
3399 DFSZKFailoverController 
3116 NameNode 


[hadoop@Master002 ~]$ jps 
2129 NameNode 
2289 Jps 
2230 DFSZKFailoverController 


[hadoop@Slave001 ~]$ jps 
2610 NodeManager 
2500 JournalNode 
2358 QuorumPeerMain 
2745 Jps 


[hadoop@Slave002 ~]$ jps 
2675 Jps 
2549 NodeManager 
2439 JournalNode 
2297 QuorumPeerMain 


[hadoop@Slave003 ~]$ jps 
23 Jps 
2611 NodeManager 
2501 JournalNode 
1788 QuorumPeerMain 


53 ”常见 问题 汇总 


(1) Hadoop 安全 模式 异常 。 

报错 : mkdir: Cannot create directory /one. Name node is in safe mode. 

原因 : Hadoop 处 于 安全 模式 下 。 

解决 : bin/hadoop dfsadmin -safemode leave (离开 安全 模式 )。 

(2) Hadoop 大 数据 集群 两 个 Master 均 为 standby 状态 。 

报错 : Operation category READ is not supported in state standby. 

原因 :Hadoop 集群 异常 ,两 个 NameNode 全 部 为 standBy X45 .DFSZKFailoverController 
进程 没有 启动 ， 因 为 没有 做 hdfs zkfc-formatZK 格式 化 ， 在 Zookeeper 集群 中 没有 创建 
hadoop-ha 节点 。 正 常情 况 Master 有 两 种 状态 ，active( 活 跃 状 态 ) 和 standby (备用 状态 )， 
其 中 正常 的 集群 是 一 台 active， 另 一 台 必 然 是 standby。 可 以 到 Zookeeper 节点 上 通过 
* /zkCli.sh -server 192.168.xx.xx” (i4 3% Zookeeper 服务 器 ， 通 过 ls /命令 查看 Zookeeper 
集群 中 是 否 有 hadoop-ha 节点 。 当 检查 到 有 hadoop-ha 节点 后 ， 再 到 任意 一 台 Master 节点 
启动 服务 。 
解决 : 在 任意 一 台 Master 节点 上 执行 “hdfs zkfc -formatZK”( 注 : 执行 “hdfs zkfc 
-formatZK” 命 令 时 ，Zookeeper 集群 必须 在 启动 状态 )。 
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(3) Zookeeper 异常 。 

异常 : Starting zookeeper---already running as process 1490. 

原因 : 在 临时 文件 下 有 个 zookeeper serverpid 文件 ， 这 个 文件 是 用 来 记录 进程 id 的 。 
由 于 机 器 意外 断 电 异 常 关闭 ， 导 致 pid 文件 残留 。 

解决 : 删除 zookeeper server.pid 文件 即 可 。 

(4) 集群 中 namenode 和 datanode 启动 后 又 挂 掉 。 

异常 : 集群 中 NameNode 或 DataNode 启动 后 ， 过 一 会 儿 又 找 不 到 进程 。 

原因 : 由 于 非法 关机 或 其 他 误 操 作 导 致 版 本 不 一 致 。 

解决 : 删除 每 个 节点 中 存放 版 本 号 的 tmp 文件 , 在 Master001 节点 执行 “hdfs namenode 


-format” 命 令 格式 化 NameNode， 然 后 将 格式 化 后 新 生成 的 tmp 拷贝 用 sep 方式 传输 到 各 
个 节点 。 


[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Master002:-/software/hadoop-2.6.5/ 
[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Slave001:-/software/hadoop-2. 6.5/ 
[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Slave002:~/software/hadoop-2.6.5/ 
[hadoop@Master001 hadoop-2.6.5]$ scp -r tmp/ Slave003:~/software/hadoop-2.6.5/ 


54 “习题 与 思考 


1. 为 什么 要 用 Hadoop BOR? 它 解决 了 哪些 问题 ? Hadoop 技术 有 哪些 优 缺 点 ? 
2. 尝试 重新 搭建 Hadoop 高 可 用 集群 ， 尝 试 解决 非 正 常 关机 导致 集群 启动 失败 的 
问题 。 


第 6 章 HDFS 技 术 


HDFS (Hadoop Distributed File System) 是 Hadoop 项 目的 核心 子 项 目 ， 是 分 布 式 计算 
中 数据 存储 管理 的 基础 ， 为 了 满足 基于 硬盘 迭代 模式 访问 和 处 理 超 大 离线 文件 的 需求 而 开 
发 ， 可 以 运行 于 廉价 的 商用 服务 器 或 PC 上 。 

HDFS 有 以 下 优点 。 

CD 高 容错 性 。 上 传 的 数据 自动 保存 多 个 副本 默认 3 个 副本 )。 它 是 通过 增加 副本 
的 数量 ， 来 增加 它 的 容错 性 的 。 如 果 某 一 个 副本 丢失 ，HDFS 机 制 会 复制 其 他 机 器 上 的 副 
本 ， 而 不 必 关 注 它 的 实现 。 

(2) 适合 大 数据 的 处 理 。 能 够 处 理 GB、TB、 甚 至 PB 级 别 的 数据 和 能 够 处 理 百 万 规 
模 的 数据 。 

(3) 基于 硬盘 和 从 代 的 IO 写 入 。 一 次 写 入 ， 多 次 读 取 。 文 件 一 旦 写 入 ， 就 不 能 修改 ， 
只 能 增加 ， 这 样 可 以 保证 数据 的 一 致 性 。 

(4) 可 以 装 在 廉价 的 机 器 上 。 

HDFS 有 以 下 缺点 。 

A) 低 延 时 数据 访问 。 它 在 低 延 时 的 情况 下 是 不 行 的 ， 它 适合 高 春 吐 率 的 场景 ， 即 在 
某 一 时 间 内 写 入 大 量 的 数据 。 对 低 延 时 要 求 高 的 情况 一 般 使 用 Spark 来 完成 ， 具 体 将 在 第 
3 篇 中 详细 讲解 。 

(2) 小 文件 的 存储 。 如 果 存 放大 量 的 小 文件 ， 它 会 大 量 占用 NameNode 的 内 存 存 储 文 
件 、 目 录 、 块 信息 ， 这 样 会 对 NameNode 节点 造成 负担 ， 小 文件 存储 的 寻 道 时 间 会 超过 文 
件 的 读 取 时 间 。 这 违背 了 HDFS 的 设计 目标 。 

(3) 不 能 并 发 写 入 ， 文 件 不 能 随机 修改 。 一 个 文件 只 能 一 个 线程 写 ， 不 能 多 个 线程 同 
时 写 。 仅 支持 文件 的 追加 ， 不 支持 文件 的 随机 修改 。 


6.1 HDFS 架构 


HDFS 的 高 可 用 是 HDFS 持续 对 各 类 客户 端 提供 读 写 服务 的 能 力 , 因为 客户 端 对 HDFS 
的 读 写 操作 之 前 都 要 访问 NameNode 服务 器 ， 客 户 端 只 有 从 NameNode 获取 元 数据 之 后 才 
能 继续 进行 读 写 。 所 以 HDFS 的 高 可 用 关键 在 于 NameNode 上 元 数据 的 持续 可 用 。Hadoop 
官方 提供 了 一 种 QuorumJournalManager 来 实现 高 可 用 。 在 高 可 用 配置 下 ，editlog 存放 在 一 
个 共享 存储 的 地 方 , 这 个 共享 存储 由 若干 个 JoumalNode 组 成 , 一 般 是 3 个 节点 (JN 集群 )， 
每 个 JoumalNode 专门 用 于 存放 来 自 NameNode 的 编辑 日 志 (editlog)， 编 辑 日 志 由 活跃 状 
态 的 名 称 节点 写 入 。 


Hadoop+Spark ARIER (RE) 


要 有 两 个 NameNode 节点 ， 二 者 之 中 只 能 有 一 个 处 于 活跃 状态 〈active)， 另 一 个 是 待 
命 状态 (standby). KH active 状态 的 节点 才能 对 外 提供 读 写 HDFS 服务 ， 也 只 有 active 
状态 的 节点 才能 向 JournalNode 写 入 编辑 日 志 ; standby 的 名 称 节 点 只 负责 从 IN 集群 中 的 
JournalNode 节点 拷贝 数据 到 本 地 存放 。 另 外 ， 各 个 DataNode 会 定期 向 两 个 NameNode 115 
点 报告 自己 的 状态 (心跳 信息 、 块 信息 )。 

一 主 一 从 的 两 个 NameNode 节点 同时 和 3 个 JournalNode 构成 的 组 保持 通信 ， 活 跃 的 
NameNode 节点 负责 往 JournalNode 集群 写 入 编辑 日 志 ， 待 命 的 NameNode 节点 负责 观察 
JournalNode 组 中 的 编辑 日 志 , 并 且 把 日 志 拉 取 到 待命 节点 ， 再 加 入 到 两 节点 各 自 的 fsimage 
镜像 文件 ， 这 样 一 来 就 能 确保 两 个 NameNode 的 元 数据 保持 同步 。 一 旦 active 不 可 用 ， 提 
前 配置 的 Zookeeper 会 把 standby 节点 自动 变 为 active， 继 续 对 外 提供 服务 。 

对 于 HA 群集 的 正确 操作 至 关 重 要 ， 因 此 一 次 只 能 有 一 个 NameNodes 处 于 活动 状态 。 
否则 ， 命 名 空间 状态 将 在 两 者 之 间 迅 速 分 上 法， 出 现 数据 丢失 或 其 他 不 正确 的 结果 。 为 了 确 
保 这 个 属性 并 防止 所 谓 的 “分 裂 大 脑 情景 ”JournalNodes 将 只 允许 一 个 NameNode 作为 “ 领 
导 者 ”。 在 故障 切换 期 间 ， 变 为 活动 状态 的 NameNode 将 简单 地 接管 写 入 JournalNodes 的 
角色 ， 这 将 有 效 地 防止 其 他 NameNode 继续 处 于 活动 状态 ， 人 允许 新 的 Active 安全 地 进行 故 
障 切换 。HDFS 高 可 用 架构 如 图 6.1 所 示 。 


HDFS 高 可 用 方案 图 


62 HDFS 命 $ 


在 HDFS 中 所 有 的 Hadoop 命令 均 由 bin/hadoop 脚本 引发 ,不 指定 参数 地 运行 Hadoop 


脚本 会 打印 所 有 命令 的 描述 。 本 节 将 介绍 常用 的 HDFS 命令 的 操作 。 


621 version 命令 


用 法 : 


hadoop version 


version 命令 可 以 打印 Hadoop 版 本 详细 信息 ， 示 例如 下 : 


[hadoop@Slave001 ~]$ hadoop version 


6.2.2 


Hadoop 2.6.5 


Subversion https://github.com/apache/hadoop.git -r e8c9fe0b4c252caf 


2ebf1464220599650f119997 
Compiled by sjlee on 2016-10-02T23:432 
Compiled with protoc 2.5.0 


From source with checksum f05c9fa095a395faa9db9f7ba5d754 


This command was run using /home/hadoop/software/hadoop-2.6.5/share/ 


hadoop/common/hadoop-common-2.6.5.jar 


dfsadmin 命令 


dfsadmin 命令 可 以 查看 集群 存储 空间 使 用 情况 和 各 个 节点 存储 空间 使 用 情况 ， 示 例 


WTF: 


[hadoop@Slave001 ~]# hadoop dfsadmin -report 


DEPRECATED: Use of this script to execute hdfs command is deprecated. 


Instead use the hdfs command for it. 
Configured Capacity: 37139136512 (34.59 GB) 
Present Capacity: 30914732032 (28.79 GB) 
DFS Remaining: 30734471168 (28.62 GB) 

DFS Used: 180260864 (171.91 MB) 

DFS Used%: 0.58% 

Under replicated blocks: 99 

Blocks with corrupt replicas: 0 


Missing blocks: 0 


Live datanodes (2): 


Name: 192.168.153.201:50010 (Slave001) 
Hostname: Slave001 

Decommission Status : Normal 

Configured Capacity: 18569568256 (17.29 GB) 
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DFS Used: 90128384 (85.95 MB) 

Non DFS Used: 3115909120 (2.90 GB) 
DFS Remaining: 15363530752 (14.31 GB) 
DFS Used: 0.49% 

DFS Remaining’: 82.73% 

Configured Cache Capacity: 0 (0 B) 
Cache Used: 0 (0 B) 

Cache Remaining: 0 (0 B) 

Cache Used$: 100.00% 

Cache Remaining$: 0.00% 

Xceivers: 1 

Last contact: Tue Dec 26 22:33:14 CST 2017 


Name: 192.168.153.202:50010 (Slave002) 
Hostname: Slave002 

Decommission Status : Normal 

Configured Capacity: 18569568256 (17.29 GB) 
DFS Used: 90132480 (85.96 MB) 

Non DFS Used: 3108495360 (2.90 GB) 

DFS Remaining: 15370940416 (14.32 GB) 

DFS Used$: 0.49$ 

DFS Remaining$: 82.77$ 

Configured Cache Capacity: 0 (0 B) 

Cache Used: 0 (0 B) 

Cache Remaining: 0 (0 B) 

Cache Used$: 100.00% 

Cache Remaining$: 0.00% 

Xceivers: 1 

Last contact: Tue Dec 26 22:33:12 CST 2017 


6.23 jar 命令 

jar 命令 是 运行 jar 包 文件 命令 。 用 户 可 以 把 它们 的 MapReduce 代码 捆绑 到 jar 文件 中 ， 
使 用 jar 命令 使 程序 运行 起 来 。 

格式 : hadoop jar <jar> [mainClass]. 

<jar>: jar 包 。 

[mainClass]: 可 选 选项 ， 指 定 运行 主 类 。 

使 用 “adoop jar” 命 令 在 Hadoop 集群 中 运行 WordCountjar 程序 ， 示 例如 下 


[hadoopéSlave001 ~]# hadoop jar WordCount. jar 
624 fs 命令 
fs 参数 是 运行 通用 文件 系统 参数 ， 在 Hadoop 后 面 跟 上 fs 参数 ， 表 示 是 对 HDFS 中 的 


站 


文件 进行 操作 。 
格式 : 
hadoop fs [GENERIC OPTIONS] [COMMAND OPTIONS] 
[GENERIC OPTIONS]: 通用 选项 。 
[COMMAND OPTIONS]: 命令 选项 。 
fs 常用 的 基本 选项 如 下 。 
1. cat 
cat 命令 可 以 在 HDFS 中 查看 指定 文件 或 指定 文件 夹 下 所 有 文件 内 容 。 
格式 : 


hadoop fs -cat <hdfs:pathFile> 
例如 ， 查 看 HDFS 中 input 目录 下 所 有 文件 内 容 。 


[hadoop@Slave001 ~]# hadoop fs -cat /input/* 


查看 HDFS 中 input 目录 下 part-r-00000 文件 中 内 容 。 

[hadoop@Slave001 ~]# hadoop fs -cat /input/part-r-00000 

JE: 

(1) /input/* 中 的 “*” 代 表 所 有 ，/input/* 代 表 input 目录 下 的 所 有 文件 。 

(2) /input/part* 代 表 input 目录 中 文件 名 以 part 开始 的 所 有 文件 。 

2. copyFromLocal 

copyFromLocal 命令 类 似 于 put 命令 ， 与 put 命令 不 同 的 之 处 ，copyFromLocal 命令 找 
贝 的 源 地 址 必须 是 本 地 文件 地 址 。 

格式 : 


hadoop fs -copyFromLocal <local:pathFile> <hdfs:pathDirectory> 


3. copyToLocal 

copyFromLocal 命令 的 作用 与 put 命令 很 像 , 都 是 上 传 文件 到 HDFS 中 , 它们 的 区 别 在 
于 copyToLocal 的 源 路 径 只 能 是 一 个 本 地 文件 ， 而 put 的 源 路 径 可 能 是 多 个 文件 ， 也 可 能 
是 标准 输入 。 

格式 ， 


hadoop fs -copyToLocal <hdfs:pathFile> <local:pathDirectory> 


除了 限定 目标 路 径 是 一 个 本 地 文件 外 ， 和 get 命令 类 似 。 


4. cp 

格式 : 

hadoop fs -cp <hdfs:pathFile> <hdfs:pathDirectory> 第 
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cp 命令 可 以 将 HDFS 中 的 指定 文件 复制 到 HDFS 中 目标 路 径 。 这 个 命令 允许 有 多 个 源 
路 径 ， 此 时 目标 路 径 必须 是 一 个 目录 。 

示例 如 下 : 

[hadoop@Slave001 ~]# hadoop fs -cp /user/hadoop/filel /user/hadoop/file2 


[hadoop@Slave001 ~]# hadoop fs -cp /user/hadoop/filel /user/hadoop/file2 
/user/hadoop/dir 


5. du 
格式 : 


hadoop fs -du <hdfs:pathDirectory> 


du 命令 是 显示 文件 或 文件 夹 属性 的 命令 ， 可 以 显示 指定 文件 的 大 小 、 多 个 指定 文件 的 
大 小 、 指 定 目录 中 所 有 文件 大 小 和 指定 多 个 目录 中 所 有 文件 的 大 小 。 


示例 如 下 : 

[hadoop@Slave001 ~]# hadoop fs -du /input /output 
73962 /output/relation 
8829 /output/word 
14215 /output/word count 
53 /input/2017-12-22.1514227013843 
41 /input/2017-12-26.1514227103154 
3297 /input/choose_column 

6. dus 


格式 : 
hadoop fs -dus <hdfs:pathDirectory> 


dus 命令 可 以 显示 指定 文件 目录 的 大 小 或 者 指定 多 个 文件 的 目录 大 小 。 


示例 如 下 : 
[hadoop@Slave001 ~]$ hadoop fs -dus /input 

3169072 /input 
[hadoop@Slave001 ~]$ hadoop fs -dus /input /ouput 

3169072 /input 

8829 /ouput 
7. expunge 
expunge 命令 的 字面 意思 是 “清除 ” CE Hadoop 中 的 作用 是 清空 回收 站 。 
格式 : 


hadoop fs -expunge 
示例 如 下 : 


[hadoop@S1ave001 ~]$ hadoop fs -expunge 


17/12/26 22:31:55 INFO fs.TrashPolicyDefault: Namenode trash configuration: 


Deletion interval - 0 minutes, Emptier interval - 0 minutes. 


8. get 
格式 : 


hadoop fs -get <hdfs:pathFile> <local:pathDirectory> 


get 命令 从 HDFS 中 复制 指定 文件 、 指 定 目 录 下 所 有 文件 和 指定 多 个 文件 到 本 地 文件 
目录 ， 执 行 get 之 前 ， 本 地 文件 目录 必须 事先 存在 。get 是 一 种 常用 的 下 载 命 令 。 

示例 如 下 : 

(1) 在 HDFS 中 复制 input 目录 下 word count 文件 到 本 地 file 目录 中 。 


[hadoop@Slave001 file]$ hadoop fs -get /input/word count ~/file 


(2) 复制 HDFS 中 input 和 output 目录 所 有 文件 到 本 地 file 目录 中 。 


[hadoop@Slave001 file]$ hadoop fs -get /input /output ~/file 
[hadoop@Slave001 file]$ ls 
input output 
[hadoop@Slave001 file]$ cd input/ 
[hadoop@Slave001 input]$ 1s 
2017-12-22.1514227013843 2017-12-26.1514227103154 choose column 
city data major monitor data score word 


u 


9. getmerge 

格式 : 

hadoop fs -getmerge <hdfs:pathDirectory> <hdfs:localFile> 

将 HDFS 中 指定 目录 下 的 所 有 文件 加 载 到 本 地 文件 中 。 如 果 文 件 名 不 存在 将 在 本 地 新 
创建 文件 ， 如 果 文 件 名 存在 ， 则 覆盖 文件 内 所 有 内 容 。 

示例 如 下 : 

[hadoop@S1ave001 file]$ hadoop fs -getmerge /output/word count ~/file/output 

[hadoop@Slave001 file]$ 1s 

file output 


[hadoop@Slave001 file]$ cat output 
Just 出 现 : 1 次 


Not 出 现 : 1 次 
Noticing 出 现 : 1 次 


10. Is 
格式 : 


hadoop fs -ls <hdfs:pathDirectory> 


在 HDFS 中 显示 指定 文件 的 详细 内 容 。 如 果 是 目录 ， 则 返回 它 直接 子 文件 的 列表 。 
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详细 内 容 包括 : 权限 、 用 户 、 文 件 所 在 组 、 文 件 大 小 、 创 建 日 期 和 路 径 等 信息 。 
示例 如 下 : 
(1) 显示 HDFS 中 word 文件 的 详细 属性 。 


[hadoop@Slave001 file]$ hadoop fs -1s /input/word 
-rw-r--r-- 3 hadoop supergroup 8829 2017-12-25 22:15 /input/word 


(2) 显示 HDFS 中 input 目录 下 所 有 文件 的 详细 属性 。 


[hadoop@Slave001 file]$ hadoop fs -ls /input 
Found 4 items 
-rw-r--r-- 3 hadoop supergroup 482 2017-12-26 00:19 /input/major 
-rw-r--r-- 3 hadoop supergroup 2954128 2017-12-25 04:33 /input/monitor 
-rw-r--r-- 3 hadoop supergroup 56812 2017-12-25 23:40 /input/score 
-rw-r--r-- 3 hadoop supergroup 8829 2017-12-25 22:15 /input/word 


hadoop fs -lsr <hdfs:pathDirectory> 


Isr 命令 是 1s -R 简写 ， 是 用 来 递归 显示 HDFS 中 指定 目录 下 的 所 有 子 文件 。 
示例 如 下 : 
[hadoop@S1ave001 file]$ hadoop fs -lsr /input 


lsr: DEPRECATED: Please use 'ls -R' instead. 
-rw-r--r-- 3 hadoop supergroup 53 2017-12-26 02:36 /input/1514227013843 


-rw-r--r-- 3 hadoop supergroup 41 2017-12-26 02:38 /input/1514227103154 
-rw-r--r-- 3 hadoop supergroup 3297 2017-12-25 23:05 /input/choose 
-rw-r--r-- 3 hadoop supergroup 145430 2017-12-25 04:52 /input/city data 
-rw-r--r-- 3 hadoop supergroup 482 2017-12-26 00:19 /input/major 
-rw-r--r-- 3 hadoop supergroup 2954128 2017-12-25 04:33 /input/monitor 
-rw-r--r-- 3 hadoop supergroup 56812 2017-12-25 23:40 /input/score 
-rw-r--r-- 3 hadoop supergroup $8829 2017-12-25 22:15 /input/word 

12. mkdir 

格式 : 


hadoop fs -mkdir <paths> 


mkdir 命令 可 以 在 HDFS 中 创建 新 目录 ， 但 它 只 能 创建 一 级 目录 。 创 建 多 级 目录 上 一 
级 目录 必须 先 存在 ， 或 者 使 用 -p 参数 。 
示例 如 下 : 
(1) 使 用 mkdir 命令 在 HDFS 的 input 目录 下 创建 一 个 file 目录 。 
[hadoop@Slave001 ~]$ hadoop fs -mkdir /input/file 
[hadoop@S1ave001 ~]$ hadoop fs -ls /input 
Found 4 items 


drwxr-xr-x - hadoop supergroup 0 2017-12-26 23:30 /input/file 
-rw-r--r-- 3 hadoop supergroup 482 2017-12-26 00:19 /input/major 


-rw-r--r-- 3 hadoop supergroup 56812 2017-12-25 23:40 /input/score 
-rw-r--r-- 3 hadoop supergroup 8829 2017-12-25 22:15 /input/word 


(2) 使 用 mkdir 命令 在 HDFS 中 分 别 在 input 目录 下 创建 一 个 fle2 目录 ， 在 output H 
录 下 也 创建 一 个 file2 HR. 


[hadoop@Slave001 ~]$ hadoop fs -mkdir /input/file2 /output/file2 
[hadoop@Slave001 ~]$ hadoop fs -1s /input /output 
Found 6 items 
drwxr-xr-x  - hadoop supergroup 0 2017-12-26 23:30 /input/file 
drwxr-xr-x  - hadoop supergroup 0 2017-12-26 23:32 /input/file2 


-rw-r--r-- 3 hadoop supergroup 8829 2017-12-25 22:15 /input/word 
Found 10 items 

drwxr-xr-x  - hadoop supergroup 0 2017-12-25 23:41 /output/averager 
drwxr-xr-x  - hadoop supergroup 0 2017-12-25 23:06 /output/choose 


drwxr-xr-x  - hadoop supergroup 0 2017-12-26 23:32 /output/file2 


(3) 使 用 mkdir 命令 在 HDFS 中 创建 一 个 多 级 目录 /file/filel/file2/file3。 


[hadoop@Slave001 ~]$ hadoop fs -mkdir -p /file/filel/file2/file3 
[hadoop@Slave001 ~]$ hadoop fs -ls -R /file 
drwxr-xr-x  - hadoop supergroup 0 2017-12-26 23:35 /file/filel 
drwxr-xr-x  - hadoop supergroup 0 2017-12-26 23:35 /file/filel/file2 
drwxr-xr-x  - hadoop supergroup 0 2017-12-26 23:35 /file/filel/file2/file3 


13. my 
格式 : 
hadoop fs -mv <hdfs:sourcepath> [hdfs:sourcepath …] <hdfs:targetPath> 


mv 命令 可 以 在 HDFS 中 将 文件 从 源 路 径 移 动 到 目标 路 径 ， 这 个 命令 允许 有 多 个 源 路 
径 ， 此 时 目标 路 径 必 须 是 一 个 目录 。 

示例 如 下 : 

CD 将 HDFS 中 的 /input/major 文件 移动 到 /file/filel/file2 中 。 


[hadoop@Slave001 ~]$ hadoop fs -mv /input/major /file/filel/file2 
[hadoop@Slave001 ~]$ hadoop fs -1s /file/filel/file2 
Found 2 items 
drwxr-xr-x - hadoop supergroup 0 2017-12-26 23:35 /file/filel/file2/file3 
-rw-r--r-- 3 hadoop supergroup 482 2017-12-26 00:19 /file/filel/file2/major 


(2) 使 用 mv 命令 将 HDFS 中 的 /input/major 文件 和 /input/word 文件 移动 到 
/file/filel/file2/file3 目录 中 。 


T 


[hadoop@Slave001 ~] $ hadoop fs -mv /input/score /input/word /file/filel/file2/file3 
[hadoop@Slave001 ~]$ hadoop fs -ls /file/filel/file2/file3 

Found 2 items 

—rw-r--r-- 3 hadoop supergroup 56812 2017-12-25 23:40 /file/filel/file2/file3/score 6 
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-rw-r—r—- 3 hadoop supergroup 8829 2017-12-25 22:15 /file/filel/file2/file3/word 
[hadoop@Slave001 ~]$ hadoop fs -1s /input 

Found 7 items 

-rw-r--r-- 3 hadoop supergroup 145430 2017-12-25 04:52 /input/city data 


drwxr-xr-x - hadoop supergroup 0 2017-12-26 23:32 /input/file2 


14. put 
格式 : 


hadoop fs -put <local:pathFile> [local:pathFile] <hdfs:pathDirctory> 


put 命令 可 以 从 本 地 文件 系统 中 复制 单个 或 多 个 源 路 径 到 目标 文件 系统 。 HDFS 中 接收 
文件 的 目录 必须 事先 存在 。 
示例 ， 从 本 地 上 传 city_data 文件 和 monitor data 文件 到 HDFS 的 test 目录 中 。 


[hadoop@Slave001 ~]$ ls 
aaaip9.jar city data file monitor data rrwquy.jar 
[hadoop@Slave001 ~]$ hadoop fs -mkdir /test 
[hadoop@Slave001 ~]$ hadoop fs -put city data monitor data /test 
[hadoop@Slave001 ~]$ hadoop fs -ls /test 
Found 2 items 
-rw-r--r-- 3 hadoop supergroup 145430 2017-12-26 23:48 /test/city data 
-rw-r--r-- 3 hadoop supergroup 2954128 2017-12-26 23:48 /test/monitor data 


15. rm 


hadoop fs -rm <hdfs:pathFile> [hdfs:pathFile] 


m 命令 是 用 于 删除 一 个 指定 的 文件 或 多 个 指定 文件 的 命令 ， 并 且 加 上 “-r” 参 数 可 以 
删除 指定 目录 。 

示例 如 下 : 

[hadoop@Slave001 ~]$ hadoop fs -ls /test 

Found 2 items 

-rw-r--r-- 3 hadoop supergroup 145430 2017-12-26 23:48 /test/city data 

-rw-r--r-- 3 hadoop supergroup 2954128 2017-12-26 23:48 /test/monitor data 

[hadoop@Slave001 ~]$ hadoop fs -rm /test/city data /test/monitor data 

17/12/26 23:52:19 INFO fs. TrashPolicyDefault: Namenode trash configuration: 

Deletion interval = 0 minutes, Emptier interval = 0 minutes. 

Deleted /test/city data 

17/12/26 23:52:20 INFO fs. TrashPolicyDefault: Namenode trash configuration: 

Deletion interval = 0 minutes, Emptier interval = 0 minutes. 

Deleted /test/monitor data 


16. rmr 


格式 : 


hadoop fs -rmr <hdfs:pathDirectory>[hdfs:pathDirectory] 


mr 命令 可 以 删除 目录 或 递归 删除 子 文 件 ， 如 果 使 用 -mr 命令 删除 一 个 目录 时 ， 不 管 
目录 下 是 否 有 其 他 文件 ， 均 将 一 并 删除 。 
示例 如 下 : 


[hadoop@Slave001 ~]$ hadoop fs -ls -R /test /file 
drwxr-xr-x - hadoop supergroup 0 2017-12-26 23:35 /file/filel 
drwxr-xr-x  - hadoop supergroup 0 2017-12-26 23:40 /file/filel/file2 


-rw-r--r-- 3 hadoop supergroup482 2017-12-26 00:19 /file/filel/file2/major 
-rw-r--r-- 3 hadoop supergroup 36365 2017-12-20 21:51 /file/input 
[hadoop@Slave001 ~]$ hadoop fs -rmr /test /file 
rmr: DEPRECATED: Please use 'rm -r' instead. 
17/12/26 23:55:49 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval = 0 minutes, Emptier interval = 0 minutes. 
Deleted /test 
17/12/26 23:55:49 INFO fs.TrashPolicyDefault: Namenode trash configuration: 
Deletion interval = 0 minutes, Emptier interval = 0 minutes. 
Deleted /file 
[hadoop@Slave001 ~]$ hadoop fs -ls -R /test /file 
ls: '/test': No such file or directory 
ls: "/file': No such file or directory 


17. tail 

格式 : 

hadoop fs -tail [-f] <hdfs:pathFile> 

tail 命令 可 以 将 文件 尾部 IKB 的 内 容 输出 到 标准 输出 。 并 且 tail 命令 支持 “-f” 选 项 ， 
加 上 “-f” 选 项 表示 实时 显示 文件 内 容 。 

示例 如 下 : 


[hadoop@Slave001 ~]$ hadoop fs -tail /input/city data 
90100751295 PMS 淳 溪 长 一 村 4# 淳 溪 供电 所 ”南京 
90100751318 PMS 新 杨 4# CMU) i) 淳 溪 供 电 所 ”南京 


90100796714 PMS 固 城 湖 佳 苑 #1 南京 市 高 淳 区 供电 公司 。 南京 
90100796715 PMS_ 固 城 湖 佳 苑 #2 ”南京 市 高 淳 区 供电 公司 。 南京 


18. text 
格式 : 


hadoop fs -text <hdfs:pathFile> 


text 命令 可 以 将 HDFS 中 的 源 文件 以 文本 格式 输出 。 


19. touchz 

格式 : 

hadoop fs -touchz <hdfs:newFile> 第 
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touchz 命令 可 以 在 HDFS 中 创建 一 个 0 字 节 的 空 文件 。 
示例 如 下 : 
[hadoop@Slave001 ~]$ hadoop fs -touchz /newfile 


[hadoop@Slave001 ~]$ hadoop fs -ls /newfile 
-rw-r--r-- 3 hadoop supergroup 0 2017-12-27 00:01 /newfile 


6.3 API 的 使 用 


关于 HDFS API 开发 配置 的 讲解 视频 可 以 扫描 以 下 两 个 二 维 码 观看 。 


HDFS 是 一 个 分 布 式 文件 系统 。 既 然 是 文件 系统 ， 就 可 以 对 其 文件 进行 操作 ， 例 如 新 
建文 件 、 删 除 文件 、 读 取 文 件 内 容 等 。 下 文 将 讲解 如 何 使 用 JavaAPI 对 HDFS 中 的 文件 进 
行 操 作 。 

在 HDFS 中 的 文件 操作 涉及 以 下 几 个 分 类 。 

Configuration 类 : 该 类 的 对 象 封 装 了 客户 端 或 者 服务 器 的 配置 。 

FileSystem X: 这 类 对 象 是 一 个 文件 系统 对 象 ， 可 以 用 该 对 象 的 一 些 方法 来 对 文件 进 
行 操 作 。 例 如 “FileSystem fs = FileSystem.get(conf);” ili it FileSystem 的 静态 方法 get 获得 
该 对 象 。 

FSDataInputStream 和 FSDataOutputStream: 这 两 个 类 是 HDFS 中 的 输入 
输出 流 。 分 别 通过 FileSystem 的 open 方法 和 create 方法 获得 。 

对 HDFS 文件 进行 操作 的 示例 如 下 。 

例 6.1 利用 HDFSAPI 在 HDFS 中 创建 新 文件 (讲解 视频 可 扫描 二 维 码 观看 )。 

//AH 


public static void main(String[] args) 
throws IOException ( 


String s = "hello world & 世界 你 好 "; 
HdfsFile.createFile("/input", s.getBytes()); 


} 
// 在 HDFS 中 创建 新 文件 的 方法 
public static void createFile(string dst, byte[] contents) 
throws IOException { 
Configuration conf = new Configuration(); 
FileSystem fs = Filesystem. get (conf); 
Path dstPath = new Path(dst); // 目标 路 径 
// 打开 一 个 输出 流 
FSDataOutputStream outputStream = fs.create (dstPath) ; 
outputStream.write (contents) ; 


outputStream.close(); 

fs.close(); 

System. out-println ("文件 创建 成 功 ! "); 
} 


例 6.2 利用 HDFS API 将 本 地 中 的 文件 上 传 到 HDFS 4 


扫描 三 维 码 观看 )。 


// 入 口 
public static void main(String[] args) 
throws IOException { 


// 从 本 地 上 传 文件 到 HDFS 中 


P 《讲解 视频 可 


//file: 是 目录 文件 自动 生成 ， input: 是 文件 名 ,数据 将 放 到 这 个 文件 名 下 


HdfsFile.uploadFile("/home/hadoop/usernumber.txt","/file/input"); 


} 
// 从 本 地 上 传 文件 到 HDFS 中 


public static void uploadFile(string src, String dst) 


throws IOException ( 
Configuration conf = new Configuration(); 
Filesystem fs = Filesystem. get (conf); 
Path srcPath = new Path(src); // 原 路 径 
Path dstPath = new Path(dst); // 目标 路 径 


// 调用 文件 系统 的 文件 复制 函数 ， 前 面 参数 指 是 否 删除 原文 件 ，true 为 删除 ， 默 认为 false 


fs.copyFromLocalFile(false, srcPath, dstPath); 


FileStatus[] fileStatus = fs.listStatus (dstPath); 


for (FileStatus file : fileStatus) ( 
// 查 看 目录 文件 路 径 


System.out.println ("HDFS 中 目标 路 径 是 : "+file.getPath()); 


System.out.println ("上 传 文件 成 功 ! "); 
} 
fs.close(); 
} 


例 6.3 利用 HDFS API 将 HDFS 中 的 指定 文件 删除 。 


// 入 口 
public static void main(String[] args) 
throws IOException { 
// 删 除 文件 
HdfsFile.delete("/input"): 
} 
// 删除 文件 
public static void delete(string filePath) 
throws IOException ( 
Configuration conf = new Configuration(); 
FileSystem fs = Filesystem. get (conf); 
Path path = new Path(filePath); 
boolean isok = fs.deleteOnExit (path) ; 
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TE (isok) { 

System. out.println(" 文 件 已 经 被 删除 ") ; 
} else { 

System-out.println(" 操 作 失 败 ") ; 


} 
fs.close(); 


) 
$164 利用 HDFS API 读 取 HDFS 中 指定 的 数据 内 容 〈 讲 解 视频 可 扫 
描 二 维 码 观看 )。 


// 入 口 
public static void main(String[] args) 


throws IOException { 
// 读 取 文件 内 容 
HdfsFile.readFile("/file/input"); 
} 
// 读 取 文 件 的 内 容 
public static void readFile(string filePath) 
throws IOException { 
Configuration conf = new Configuration(); 
FileSystem fs = Filesystem. get (conf); 
Path srcPath = new Path(filePath); 
InputStream in = null; 
try { 
in = fs.open(srcPath) ; 
// 复制 到 标准 输出 流 ， 4096 是 缓冲 大 小 
IOUtils.copyBytes(in, System.out, 4096, false): 
) finally ( 


IOUtils.closeStream(in); 


64 “习题 与 思考 


1. 尝试 在 HDFS 中 创建 文件 夹 、 上 传 文件 、 查 询 文件 、 拷 贝 文件 和 下 载 文件 。 
2. 尝试 使 用 HDFS API 在 HDFS 中 创建 文件 夹 、 上 传 文件 、 查 询 文件 、 复 制 文件 和 下 
载 文件 。 


第 7 章 MapReduce 技术 


7.1 MapReduce 工作 原理 


7.1.1 MapReduce 作业 运行 流程 


MapReduce 作业 运行 流程 如 图 7.1 所 示 。 


请 求 作业 


心跳 ， 反 馈 状态 


复制 所 需要 的 
作业 资源 


图 7.1 


MapReduce 作业 流程 分 析 如 下 ， 相 关 讲 解 视 频 可 扫描 二 维 码 观看 。 

(1) 在 客户 端 启 动 一 个 作业 。 

(2) 向 JobTracker 请 求 一 个 Job ID. 

Go 将 运行 作业 所 需要 的 资源 文件 复制 到 HDFS 上 ， 包 括 MapReduce 
程序 打包 的 JAR 文件 、 配 置 文件 和 客户 端 计算 所 得 的 输入 划分 信息 。 这 些 
文件 都 存放 在 JobTracker 专门 为 该 作业 创建 的 文件 夹 中 , 文件 夹 名 为 该 作业 的 Job ID. JAR 
文件 默认 会 有 10 个 副本 (mapred.submit.replication 属性 控制 )， 输 入 划分 信息 告诉 了 
JobTracker 应 该 为 这 个 作业 启动 多 少 个 map 任务 等 信息 。 

(4) JobTracker 接收 到 作业 后 ， 将 其 放 在 一 个 作业 队列 里 ， 等 待 作业 调度 器 对 其 进行 
调度 ， 当 作业 调度 器 根据 自己 的 调度 算法 调度 到 该 作业 时 ， 会 根据 输入 划分 信息 为 每 个 划 


分 创建 一 个 map 任务 ， 并 将 map 任务 分 配给 TaskTracker 执行 。 对 于 map 和 reduce 任务 ， 
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TaskTracker 根据 主机 核 的 数量 和 内 存 的 大 小 有 固定 数量 的 map 槽 和 reduce 槽 。 这 里 需要 
强调 的 是 : map 任务 不 是 随 随便 便 地 分 配给 某 个 TaskTracker 的 ， 这 里 有 个 概念 : 数据 本 地 
化 (Data-Local)。 意 思 是 将 map 任务 分 配给 含有 该 map 处 理 的 数据 块 的 TaskTracker， 同 
时 将 程序 JAR 包 复 制 到 该 TaskTracker 来 运行 , 这 是 “运算 移动 , 数据 不 移动 ”分 配 reduce 
任务 时 并 不 考虑 数据 本 地 化 。 

(5) TaskTracker 每 隔 一 段 时 间 会 给 JobTracker 发 送 一 个 心跳 ， 告 诉 JobTracker 它 依然 
在 运行 ， 同 时 心跳 中 还 携带 着 很 多 信息 ， 比 如 当前 map 任务 完成 的 进度 等 信息 。 当 
JobTracker 收 到 作业 的 最 后 一 个 任务 完成 信息 时 ， 便 把 该 作业 设置 成 “成 功 ”。 当 JobClient 
查询 状态 时 ， 它 将 得 知 任务 已 完成 ， 便 显示 一 条 消息 给 用 户 。 


7.1.2 早期 MapReduce 架构 存在 的 问题 


早期 的 MapReduce 架构 非常 简单 明了 , 在 最 初 几 年 出 现 了 众多 的 成 功 案例 ， 获 得 业界 
广泛 的 支持 和 肯定 ， 但 随 着 分 布 式 系统 集群 的 规模 和 其 工作 负荷 的 增长 ， 原 框架 的 问题 逐 
渐 浮 出 水 面 ， 主 要 集中 在 如 下 几 方 面 。 

(1) JobTrack 单 点 故障 问题 。 由 于 JobTrack 是 MapReduce 的 集中 处 理 点 ， 如 果 出 单 点 
故障 ， 集 群 将 不 能 使 用 ， 集 群 的 高 可 用 性 也 就 得 不 到 保障 。 

(2) JobTrack 任务 过 重 。JobTracker 节点 完成 了 太 多 的 任务 ， 会 造成 过 多 的 资源 消耗 ， 
当 Job 任务 非常 多 的 时 候 ， 会 造成 很 大 的 内 存 开销 ， 潜 在 地 增加 了 JobTracker 节点 死机 的 
风险 。 

(3) 容易 造成 TaskTracker 端 内 存 溢出 。 在 TaskTracker Siig, LA map Ek reduce 的 任务 
数量 作为 资源 的 , 没有 考虑 到 内 存 的 占用 情况 , 如 果 两 个 大 内 存 消 耗 的 任务 被 调度 到 一 块 ， 
这 样 很 容易 出 现 内 存 溢出 。 

(4) 容易 造成 资源 浪费 。 在 TaskTracker 端 ， 把 资源 强制 划分 为 map 任务 和 reduce 任 
务 ， 如 果 当 系统 中 只 有 map 任务 或 者 只 有 reduce 任务 时 ， 会 造成 资源 的 浪费 。 


7.2 YARN 运行 概述 


7.2.1 YARN 模块 介绍 


从 业界 使 用 分 布 式 系统 的 变化 趋势 和 Hadoop 框架 的 长 远 发 展 来 看 ，MapReduce 的 
JobTracker 和 TaskTracker 机 制 需 要 大 规模 的 调整 来 修复 它 在 可 扩展 性 、 内 存 消耗 、 可 靠 性 
和 性 能 上 的 缺陷 。 在 过 去 的 几 年 中 ，Hadoop 开发 团队 做 了 一 些 bug 的 修复 , 但 是 最 近 这 些 
修复 的 成 本 越 来 越 高 ， 这 表明 对 原 框架 做 出 改变 的 难度 越 来 越 大 。 

为 了 从 根本 上 解决 旧 MapReduce 框架 的 性 能 瓶颈 ， 促 进 Hadoop 框架 的 更 长 远 发 展 ， 
从 Hadoop 0.23.0 版 本 开始 ，Hadoop 的 MapReduce 框架 完全 重 构 ， 发 生 了 根本 的 变化 ， 新 
的 Hadoop MapReduce 框架 命名 为 YARN。 

YARN 是 一 个 资源 管理 ,任务 调度 的 框架 , 主要 包含 三 大 模块 : ResourceManager(RM)、 
NodeManager (NM)、ApplicationMaster (AM)。 其 中 ，ResourceManager 负责 所 有 资源 的 
监控 ,分 配 和 管理 ;ApplicationMaster 负责 每 一 个 具体 应 用 程序 的 调度 和 协调 ;NodeManager 


负责 每 一 个 节点 的 维护 ， 对 于 所 有 的 applications，ResourceManager 拥有 绝对 的 控制 权 和 
资源 的 分 配 权 ， 而 每 个 ApplicationMaster 则 会 和 ResourceManager 协商 资源 ， 同 时 和 
NodeManager 通信 来 执行 和 监控 task。 

1. ResourceManager 

ResourceManager 负责 整个 集群 的 资源 管理 和 分 配 ， 是 一 个 全 局 的 资源 管理 系统 。 
NodeManager 以 心跳 的 方式 向 ResourceManager 汇报 资源 使 用 情况 (目前 主要 是 CPU 和 内 
存 的 使 用 情况 )。ResourceManager 只 接收 NodeManager 的 资源 回报 信息 ， 对 于 具体 的 资源 
处 理 则 交 给 NodeManager 处 理 。YARN Scheduler 根据 application 的 请 求 为 其 分 配 资源 , 不 
负责 Application Job 的 监控 、 追 踪 、 运 行 状态 反馈 、 启 动 等 工作 。 

2. NodeManager 

NodeManager 是 每 个 节点 上 的 资源 和 任务 管理 器 ， 是 管理 这 台 机 器 的 代理 ， 负 责 该 节 
点 程序 的 运行 ， 以 及 该 节点 资源 的 管理 和 监控 。YARN 集群 每 个 节点 都 运行 一 个 
NodeManager。 oda 定时 向 ResourceManager 汇报 本 节点 资源 (CPU, FF) 的 使 
用 情况 和 Container 的 运行 状态 。 当 ResourceManager 死机 时 NodeManager 自动 连接 
ResourceManager 备用 节点 。NodeManager 接收 并 处 理 来 自 ApplicationMaster 的 Container 
启动 、 停 止 等 各 种 请 求 。 

3. ApplicationMaster 

用 户 提 交 的 每 个 应 用 程序 均 包 含 一 个 ApplicationMaster， 它 可 以 运行 在 
ResourceManager 以 外 的 机 器 上 ， 有 以 下 作用 : 

(1) 负责 与 ResourceManager 调度 器 协商 以 获取 资源 (用 Container 表示 )。 

(2) 将 得 到 的 任务 进一步 分 配给 内 部 的 任务 资源 的 二 次 分 配 )。 

(3) 与 ResourceManager 通信 以 启动 /停止 任务 。 

(4) 监控 所 有 任务 运行 状态 ， 并 在 任务 运行 失败 时 重新 为 任务 申请 资源 以 重启 任务 。 

(5) 当 前 YARN 自 带 了 两 个 ApplicationMaster 实现 ,一 个 是 用 于 演示 ApplicationMaster 
编写 方法 的 实例 程序 DistributedShell， 它 可 以 申请 一 定数 目的 Container 以 并 行 运行 一 个 
Shell 命令 或 者 Shell 脚本 ; 另 一 个 是 运行 MapReduce 应 用 程序 的 AM 一 MRAppMaster。 


7.2.2 YARN 工作 流程 


运行 在 YARN 上 的 应 用 程序 主要 分 为 两 类 : 短 应 用 程序 和 长 应 用 程序 。 其 中 ， 短 应 用 
程序 是 指 一 定时 间 内 可 运行 完成 并 正常 退出 的 应 用 程序 ， 比 如 MapReduce 作业 、Tez DAG 
作业 等 ; 长 应 用 程序 是 指 不 出 意外 , 永 不 终止 运行 的 应 用 程序 , 通常 是 一 些 服 务 , 比如 Storm 
Service (主要 包括 Nimbus 和 Supervisor 两 类 服务 )，HBase Service (包括 Hmaster 和 
RegionServer 两 类 服务 ) 等 ， 它 们 本 身 作为 一 个 框架 提供 编程 接口 供用 户 使 用 。 尽 管 这 两 
类 应 用 程序 作用 不 同 ， 一 类 直接 运行 数据 处 理 程序 ， 一 类 用 于 部 署 服务 服务 之 上 再 运行 
数据 处 理 程序 )， 但 运行 在 YARN 上 的 流程 是 相同 的 。 

当 用 户 向 YARN 中 提交 一 个 应 用 程序 后 ，YARN 将 分 两 个 阶段 运行 该 应 用 程序 : 第 一 
个 阶段 是 启动 ApplicationMaster; 第 二 个 阶段 是 由 ApplicationMaster 创建 应 用 程序 ， 为 它 
申请 资源 ， 并 监控 它 的 整个 运行 过 程 ， 直 到 运行 完成 ，YARN 的 工作 流程 如 图 72 所 示 。 
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图 72 


(1) Client 向 ResourceManager 提交 应 用 程序 ， 包 括 启 动 该 应 用 的 ApplicationMaster 
的 必需 信息 ， 例 如 ApplicationMaster 程序 、 启 动 ApplicationMaster 的 命令 、 用 户 程序 等 。 

(2) ResourceManager 在 NodeManager 中 启动 一 个 Container 用 于 运行 ApplicationMaster。 

(3) 启 动 中 的 ApplicationMaster 向 ResourceManager 注册 自己 , 启动 成 功 后 与 Resource 
Manager 保持 心跳 。 

(4) ApplicationMaster 向 ResourceManager 发 送 请 求 ， 申 请 相应 数目 的 Container。 

(5) ResourceManager 返回 ApplicationMaster 申请 的 Container 信息 。 申 请 成 功 的 
Container 由 ApplicationMaster 进行 初始 化 。Container 的 启动 信息 初始 化 后 ， 
ApplicationMaster 与 对 应 的 NodeManager 通信 ， 要 求 NodeManager 启动 Container. 

(6) ApplicationMaster 与 NodeManager 保持 相同 ， 从 而 对 NodeManager 上 运行 的 任务 
进行 监控 和 管理 。Container 运行 期 间 ApplicationMaster 对 Container 进行 监控 。Container 
通过 RPC 协议 向 对 应 的 ApplicationMaster 汇报 自己 的 进度 和 状态 等 信息 。 

(7) 应 用 运行 期 间 Client 直接 与 ApplicationMaster 通信 获取 应 用 的 状态 、 进 度 更 新 等 
信息 。 

(8) 应 用 程序 运行 完成 后 ，ApplicationMaster 向 ResourceManager 注销 并 关闭 自己 ， 
并 允许 属于 它 的 Container 被 收回 。 


7.3 MapReduce 编程 模型 


从 MapReduce 自身 的 命名 特点 可 以 看 出 , MapReduce 由 两 个 阶段 组 成 : map 和 reduce。 


用 户 只 需 编 写 map0 和 reduce0) 两 个 函数 ， 即 可 完成 简单 的 分 布 式 程序 的 设计 。 

map() 函 数 以 key/value 对 作为 输入 , 产生 另外 一 系列 key/value 对 作为 中 间 输 出 写 入 本 
地 磁盘 。MapReduce 框架 会 自动 将 这 些 中 间 数 据 按照 key 值 进行 聚集 ， 且 key 值 相 同 〈 用 
户 可 设 定 聚 集 策略 ， 默 认 情 况 下 是 对 key 值 进行 哈 希 取 模 ) 的 数据 统一 交 给 reduce) AA 
处 理 。 

reduce) KZL key 及 对 应 的 value 列表 作为 输入 。 经 合并 key 相同 的 value 值 后 ， 产 
生 另 外 一 系列 key/value 对 作为 最 终 输 出 写 入 HDES. 

下 面 以 MapReduce 中 的 “hello world” 程 序 一 一 WordCount 为 例 介 绍 程序 设计 方法 。 

“hello world” 程 序 是 学 习 任何 一 门 编程 语言 时 编写 的 第 一 个 程序 。 它 简单 且 易 于 理解 ， 
能 够 帮助 读者 快速 入 门 。 同 样 , 分 布 式 处 理 框架 也 有 自己 的 “hello world" FE: WordCount. 
它 完成 的 功能 是 统计 输入 文件 中 的 每 个 单词 出 现 的 次 数 。 

其 中 Map 部 分 代码 如 图 7.3 所 示 。 


Il key FT Pees 
value 一 行 字符 串 内 容 
map(String key, String value) : 
/将 字符 串 分 割 成 单词 
words = SplitintoTokens(value); 
for each word w in words: 
Emitintermediate(w, "1"): 


Reduce 部 分 如 下 : 


I key- 一 个 单词 
Ji values: 该 单词 出 现 的 次 数列 表 
reduce(String key, Iterator values): 
int result = 0; 
for each v in values: 
result += StringTolnt(v): 
Emit(key, IntToString(result)); 


图 7.3 


用 户 编写 完 MapReduce 程序 后 ,按照 一 定 规则 指定 程序 的 输入 和 输出 目录 ,并 提交 到 
Hadoop 集群 中 。Hadoop 将 输入 数据 切 分 成 若干 个 输入 分 片 (input split， 后 面 简称 split), 
并 将 每 个 split 交 给 一 个 Map Task 处 理 ，Map Task 不 断 地 从 对 应 的 split 中 解析 出 一 个 个 
key/value， 并 调用 map0 函 数 处 理 ， 处 理 完 之 后 根据 Reduce Task 个 数 将 结果 分 成 若干 个 分 
片 (partition) 写 到 本 地 磁盘 。 同 时 ， 每 个 Reduce Task 从 每 个 Map Task 上 读 取 属于 自己 的 
那个 partition， 然 后 使 用 基于 排序 的 方法 将 key 相同 的 数据 聚集 在 一 起 ， 调 用 reduce() ER t 
处 理 ， 并 将 结果 输出 到 文件 中 。 

上 面 的 程序 还 缺少 三 个 基本 的 组 件 ， 功 能 分 别 如 下 : 

CD 指定 输入 文件 格式 。 将 输入 数据 切 分 成 若干 个 split， 且 将 每 个 split 中 的 数据 解析 | 7 
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成 一 个 个 mapO 函 数 要 求 的 key/value 对 。 

(2) 确定 map(O) 函 数 产生 的 每 个 key/value 对 发 给 哪个 Reduce Task 函数 处 理 。 

(3) 指定 输出 文件 格式 ， 即 每 个 key/value 对 以 何 种 形式 保存 到 输出 文件 中 。 

在 Hadoop MapReduce 中 , 这 三 个 组 件 分 别 是 InputFormat, Partitioner 和 OutputFormat, 
它们 均 需 要 用 户 根据 自己 的 应 用 需求 配置 。 而 对 于 上 面 的 WordCount 例子 ， 默 认 情 况 下 
Hadoop 采用 的 默认 实现 正好 可 以 满足 要 求 ， 因 而 不 必 再 提供 。 

综 上 所 述 ，Hadoop MapReduce 对 外 提供 了 5 个 可 编程 组 件 ， 分 别 是 InputFormat、 
Mapper、Partitioner、Reducer 和 OutputFormat. 


7.4 MapReduce 数据 流 


Hadoop 的 核心 组 件 工作 流水 线 如 图 7.4 所 示 。 


7.4 


MapReduce 的 输入 一 般 来 自 HDFS 中 的 文件 ， 这 些 文件 分 别 存储 在 集群 内 的 节点 上 。 
运行 一 个 MapReduce 程序 会 在 集群 的 许多 节点 甚至 所 有 节点 上 运行 mapping 任务 。 每 一 个 
mapping 任务 都 是 平等 的 ，Mapper 没有 特定 “标识 物 ” 与 其 关联 。 因 此 ， 任 意 的 mapper 
都 可 以 处 理 任意 的 输入 文件 .每 一 个 mapper 会 加 载 一 些 存储 在 运行 节点 本 地 的 文件 集 来 进 
行 处 理 〈 这 是 移动 计算 ， 把 计算 移动 到 数据 所 在 节点 可 以 避免 额外 的 数据 传输 开销 )。 

当 Mapping 阶段 完成 后 ， 这 阶段 所 生成 的 中 间 键 值 对 数据 必须 在 节点 间 进 行 交 换 ， 把 
具有 相同 键 的 数值 发 送 到 同一 个 reducer. reduce 任务 在 集群 内 的 分 布 节点 同 mapper 的 一 
样 。 这 是 MapReduce 中 唯一 的 任务 节点 间 的 通信 过 程 。map 任务 间 不 会 进行 任何 的 信息 交 


换 ， 也 不 会 去 关心 其 他 map 任务 的 存在 。 同 理 ， 不 同 的 reduce 任务 之 间 也 不 会 有 通信 。 用 
户 不 能 显 式 地 从 一 台 机 器 发 送信 息 到 另外 一 台 机 器 ; 所 有 数据 传送 都 是 由 Hadoop 
MapReduce 平台 自身 去 做 的 ， 这 些 是 通过 关联 到 数值 上 的 不 同 键 来 隐 式 引导 的 ， 这 是 
Hadoop MapReduce 的 可 靠 性 的 基础 元 素 。 如 果 集 群 中 的 节点 失效 了 ， 任 务 会 被 重新 启动 。 
如 果 任 务 已 经 执行 了 有 副作用 的 操作 ， 比 如 跟 外 面 进行 通信 ， 共 享 状态 必须 存在 可 以 重启 
的 任务 上 。 消 除了 通信 和 副作用 ， 重 启 就 会 更 优雅 。 

在 图 7.5 (a) 中 ,描述 了 Hadoop MapReduce 的 高 层 视图 。 可 以 看 到 mapper 和 reducer 
组 件 是 如 何 用 到 词 频 统计 程序 中 的 ， 是 如 何 完成 它们 的 目标 的 。 如 图 7.5 Cb) 所 示 是 近 距 
离 看 这 个 系统 的 细节 。 
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图 7.5 


从 图 7.5 中 可 以 看 出 当 执行 一 个 job 时 ， 是 从 当地 的 HDFS 存储 加 载 文件 。Hadoop 会 
将 输入 数据 划分 成 等 长 的 数据 块 ， 成 为 数据 分 片 。Hadoop 会 为 每 个 分 片 构建 一 个 map fF 
务 ， 然 后 进入 到 Shuffle 阶段 。Shuffle 是 map 和 reduce 之 间 的 过 程 ， 包 含 了 partition (分 
割 ) 和 combine (分 类 ) 两 部 分 ， 它 只 是 理论 上 存在 ， 属 于 MapReduce 框架 ， 主 要 作用 是 


MapReduce Z% 


Hadoop*Spark AHER (RE) 


把 map 任务 的 每 个 分 片 拆 分 ， 然 后 按 相 同 内 容 进行 分 组 ， 是 以 <keyvalue> 形 式 将 结果 存在 
一 个 临时 空间 ，reduce 从 临时 空间 里 读 取 <keyvalue> 结 果 ， 通 过 key 进行 分 组 ， 相 同 key 
的 value 值 作 统计 计算 ， 把 统计 出 来 的 结果 利用 contest write(keyvalue) 语 句 写 入 到 HDFS 
中 ， 以 一 个 新 的 文件 形式 存在 。 

可 以 把 MapRedue 过 程 看 成 一 条 SQL 语句 “select key, sum(value) from talbe group by 
key”. map 部 分 就 像 是 没有 加 group by 的 SQL 语句 ， 只 是 对 字段 的 映射 ，reduce 部 分 像 
是 加 了 group by 的 SQL 语句 ， 先 要 对 key 进行 分 组 ， 然 后 对 相同 key 的 value 进行 统计 。 

ik: 并 行 的 处 理 分 片 时 间 肯 定 会 少 于 处 理 整个 大 数据 块 的 时 间 ， 但 由 于 各 个 节点 性 能 
及 作业 运行 情况 的 不 同 ， 每 个 分 片 的 处 理 时 间 可 能 不 一 样 。 因 此 ， 把 数据 分 片 切 分 得 更 细 
可 以 得 到 更 好 的 负载 均衡 。 但 另 一 方面 ， 分 片 太 小 的 话 ， 管 理 分 片 和 构建 map 任务 的 时 间 
将 会 增多 。 因 此 ， 需 要 在 Hadoop 分 片 大 小 和 处 理 分 片 时 间 之 间 做 一 个 权衡 。 对 于 大 多 数 
作业 来 说 ， 一 个 分 片 大 小 为 128MB 比较 合适 ， 所 有 Hadoop 默认 块 大 小 也 就 是 128MB。 


TAL 输入 文件 


文件 是 MapReduce 任务 的 数据 初始 存储 地 。 正 常情 况 下 ， 输 入 文件 一 般 是 存在 HDFS 
中 。 这 些 文件 的 格式 是 任意 的 ， 可 以 使 用 基于 行 的 日 志文 件 ， 也 可 以 使 用 二 进 制 格式 ， 多 
行 输入 记录 或 其 他 一 些 格式 。 这 些 文件 往往 会 很 大 ， 达 到 数 GB REK. 
7.4.2. 输入 格式 


InputFormat 类 定义 了 如 何 分 割 和 读 取 输 入 文件 ， 它 提供 以 下 功能 ; 

(1) 选择 作为 输入 的 文件 或 对 象 。 

(2) 定义 把 文件 划分 到 任务 的 InputSplits. 

(3) 为 RecordReader 读 取 文 件 提供 了 一 个 工厂 方法 。 

Hadoop 自 带 了 多 种 输入 格式 。 其 中 有 一 个 抽象 类 叫 FileInputFormat， 所 有 操作 文件 的 
InputFormat 类 都 是 从 它 那 里 继承 功能 和 属性 的 。 当 开启 Hadoop 作业 时 ，FileInputFormat 
会 得 到 一 个 路 径 参数 ， 这 个 路 径 内 包含 了 所 需要 处 理 的 文件 。FileInputFormat 会 读 取 这 个 
文件 夹 内 的 所 有 文件 , 然后 会 把 这 些 文件 拆 分 成 一 个 或 多 个 的 InputSplit。 可 以 通过 JobConf 
对 象 的 setInputFormat0) 方 法 来 设 定 应 用 到 作业 输入 文件 上 的 输入 格式 。 标 准 的 输入 格式 如 
表 7.1 所 示 。 


表 7.1 
输入 格式 描述 键 值 
TextInputFormat 默认 格式 ， 读 取 文 件 的 行 ” 行 的 字 节 偏 移 量 行 的 内 容 
KeyValueInputFormat 把 行 解析 为 键 值 对 第 一 个 Tab 字符 前 的 所 有 ” 行 剩 下 的 内 容 
SequenceFileInputFormat Hadoop 定义 的 高 性 能 二 进 ”用 户 自 定义 用 户 自 定义 


制 格式 


默认 的 输入 格式 是 TextmputFormat。 它 把 输入 文件 每 一 行 作为 单独 的 一 个 记录 ， 但 不 
做 解析 处 理 。 这 对 那些 没有 被 格式 化 的 数据 或 是 基于 行 的 记录 来 说 是 很 有 用 的 ， 比 如 日 志 


文件 。KeyValueInputFormat 这 个 格式 也 是 把 输入 文件 每 一 行 作为 单独 的 一 个 记录 。 然 而 不 
同 的 是 , TextInputFormat 把 整个 文件 行当 做 值 数据 ,KeyValueInputFormat 则 是 通过 搜寻 Tab 
字符 来 把 行 拆 分 为 键 值 对 , 这 在 把 一 个 MapReduce 的 作业 输出 作为 下 一 个 作业 的 输入 时 显 
得 特别 有 用 ， 因 为 默认 输出 格式 正 是 按 KeyValueInputFormat 格式 输出 数据 。 
最 后 来 讲解 SequenceFileInputFormat。 它 会 读 取 特殊 的 特定 于 Hadoop 的 二 进 制 文件 ， 

这 些 文件 包含 了 很 多 能 让 Hadoop 的 mapper 快速 读 取 数 据 的 特性 , Sequence 文件 是 块 压缩 
的 并 提供 了 对 几 种 数据 类 型 直接 的 序列 化 与 反 序列 化 操作 。Squence 文件 可 以 作为 
MapReduce 任务 的 输出 数据 , 并 且 用 它 做 一 个 MapReduce 作业 到 另 一 个 作业 的 中 间 数 据 是 
很 高 效 的 。 
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一 个 输入 块 描述 了 构成 MapReduce 程序 中 单个 map 任务 的 一 个 单元 。 把 一 个 
MapReduce 程序 应 用 到 一 个 数据 集 上 ， 即 是 指 一 个 作业 ,会 由 多 个 任务 组 成 ，Map 任务 可 
能 会 读 取 整个 文件 ， 但 一 般 是 读 取 文件 的 一 部 分 。 默 认 情 况 下 ，FileInputFormat 及 其 子 类 
会 以 128MB 为 基数 来 拆 分 文件 .可 以 在 mapred-default.xml 文件 内 设 定 mapred.min.split.size 
参数 来 控制 具体 划分 大 小 ， 或 者 在 具体 MapReduce 作业 的 JobConf 对 象 中 重 写 这 个 参数 。 
通过 以 块 形式 处 理 文件 , 可 以 让 多 个 map 任务 并 行 地 操作 一 个 文件 。 如 果 文 件 非常 大 的 话 ， 
这 个 特性 可 以 通过 并 行 处 理 大 幅 地 提升 性 能 。 更 重要 的 是 ， 因 为 多 个 块 (Block) 组 成 的 文 
件 可 能 会 分 散在 集群 内 的 好 几 个 节点 上 ， 这 样 就 可 以 把 任务 调度 在 不 同 的 节点 上 ， 因 此 所 
有 的 单个 块 都 是 本 地 处 理 的 ， 而 不 是 把 数据 从 一 个 节点 传输 到 另外 一 个 节点 。 

输入 格式 定义 了 组 成 mapping 阶段 的 map 任务 列表 , 每 一 个 任务 对 应 一 个 输入 块 。 接 
着 根据 输入 文件 块 所 在 的 物理 地 址 ， 这 些 任务 会 被 分 派 到 对 应 的 系统 节点 上 ， 可 能 会 有 多 
个 map 任务 被 分 派 到 同一 个 节点 上 。 任 务 分 派 好 后 ， 节 点 开始 运行 任务 ， 尝 试 去 最 大 并 行 
化 执行 。 节 点 上 的 最 大 任务 并 行 数 由 mapred.tasktracker.map.tasks.maximum 参数 控制 。 


7.4.4 ”记录 读 取 器 


RecordReader 类 是 用 来 加 载 数 据 并 把 数据 转换 为 适合 mapper 读 取 的 键 值 对 。 
RecordReader 实例 是 由 输入 格式 定义 的 ， 默 认 的 输入 格式 TextInputFormat， 提 供 了 一 个 
LineRecordReader。 这 个 类 会 把 输入 文件 的 每 一 行 作 为 一 个 新 的 值 ， 关 联 到 每 一 行 的 键 则 
是 该 行 在 文件 中 的 字 节 偏 移 量 。RecordReader 会 在 输入 块 上 被 重复 地 调用 直到 整个 输入 块 
被 处 理 完 毕 ， 每 一 次 调用 RecordReader 都 会 调用 Mapper 的 map() 方 法 。 

而 SequenceFileInputFormat 对 应 的 RecordReader 是 SequenceFileRecordReader 。 
LineRecordReader 是 每 行 的 偏 移 量 作为 读 入 map 的 key, 每 行 的 内 容 作为 读 入 map 的 value. 
很 多 时 候 hadoop 内 置 的 RecordReader 并 不 能 满足 需求 。 比 如 在 读 取 记录 时 ， 和 希望 map iX 
入 的 key 值 不 是 偏 移 量 而 是 行 号 或 者 是 文件 名 ， 这 时 候 可 以 自 定义 RecordReader。 


74.5 Mapper 


Mapper 执行 了 MapReduce 程序 第 一 阶段 中 有 趣 的 用 户 定义 的 工作 。 给 定 一 个 键 值 对 ， 
map() 方 法 会 生成 一 个 或 多 个 键 值 对 ,这些 键 值 对 会 被 送 到 Reducer 那里 。 对 于 整个 作业 输 
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入 部 分 的 每 一 个 map 任务 〈 输 入 块 )， 每 一 个 新 的 Mapper 实例 都 会 在 单独 的 Java 进程 中 
被 初始 化 ，Mapper 之 间 不 能 进行 通信 。 这 就 使 得 每 一 个 map 任务 的 可 靠 性 不 受 其 他 map 
任务 的 影响 ， 只 由 本 地 机 器 的 可 靠 性 来 决定 。 

map() 方 法 除了 键 值 ， 对 外 还 会 接收 额外 的 两 个 参数 。 

(1) OutputCollector 对 象 有 一 个 叫 collect0 的 方法 , 它 可 以 利用 该 方法 把 键 值 对 送 到 作 
业 的 reduce 阶段 。 

(2) Reporter 对 象 提供 当前 任务 的 信息 ， 它 的 getInputSplit0 方 法 会 返回 一 个 描述 当前 
输入 块 的 对 象 , 并 且 还 允许 map 任务 提供 关于 系统 执行 进度 的 额外 信息 。setStatus() 方 法 允 
许 生 成 一 个 反馈 给 用 户 的 状态 消息 ,incrCounter() 方 法 允许 递增 共享 的 高 性 能 计数 器 , 除了 
默认 的 计数 器 外 ， 还 可 以 定义 更 多 的 想 要 的 计数 器 。 每 一 个 Mapper 都 可 以 递增 计数 器 ， 
JobTracker 会 收集 由 不 同 处 理 得 到 的 递增 数据 并 把 它们 聚集 在 一 起 以 供 作 业 结 束 后 的 
读 取 。 


7.4.6 Shuffle 


Shuffle 的 本 义 是 洗 牌 、 混 洗 , 把 一 组 有 一 定 规则 的 数据 尽量 转换 成 一 组 无 规则 的 数据 ， 
越 随机 越 好 。MapReduce 中 的 Shuffle 更 像 是 洗 牌 的 逆 过 程 ， 把 一 组 无 规则 的 数据 尽量 转 
换 成 一 组 具有 一 定 规则 的 数据 。 

为 什么 MapReduce 计算 模型 需要 Shuffle 过 程 ? MapReduce 计算 模型 一 般 包括 两 个 重 
要 的 阶段 : map 是 映射 , 负责 数据 的 过 滤 分 发 ; reduce 是 归 约 , 负责 数据 的 计算 归并 。 reduce 
的 数据 来 源 于 map，map 的 输出 即 是 reduce 的 输入 ，reduce 需要 通过 Shuffle 来 获取 数据 。 

从 map 输出 到 reduce 输入 的 整个 过 程 可 以 广义 地 称 为 Shuffle。Shuffle 横 跨 map 端 和 
reduce 端 ， 在 map 端 包括 split 过 程 ， 在 reduce 端 包括 copy 和 sort 过 程 ， 如 图 7.6 所 示 。 
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TE map 端的 Shuffle 过 程 是 对 map 的 结果 进行 分 区 (partition)、 排 序 (sort) 和 分 割 (split)， 
然后 将 属于 同一 个 划分 的 输出 合并 在 一 起 (merge) 并 写 在 硬盘 上 ， 同 时 按照 不 同 的 划分 将 
结果 发 送 给 对 应 的 reduce。reduce 端 又 会 将 各 个 map 送 来 的 属于 同一 个 划分 的 输出 进行 合 
并 (merge), Max} merge 的 结果 进行 排序 ， 最 后 交 给 reduce 处 理 。 通 俗 地 讲 ， 就 是 对 


map 输出 结果 先进 行 分 区 (partition)， 如 “aaa” 经 过 Partitioner 后 返回 0， 也 就 是 这 对 值 
应 当 交 由 第 一 个 reducer 来 处 理 。 接 下 来 ， 需 要 将 数据 写 入 内 存 缓冲 区 中 。 缓冲 区 的 作用 是 
批量 收集 map 结果 ， 减 少 磁盘 IO 的 影响 。key/value 对 以 及 Partition 的 结果 都 会 被 写 入 组 
冲 区 。 当 然 写 入 之 前 ，key 5 value 值 都 会 被 序列 化 成 字 节 数组 。 这 个 内 存 缓冲 区 是 有 大 小 
限制 的 ， 默 认为 100MB 〈80%)。 当 map task 的 输出 结果 很 多 时 ， 需 要 在 一 定 条 件 下 将 组 
冲 区 中 的 数据 临时 写 入 磁盘 ， 然 后 重新 利用 这 块 缓冲 区 。 这 个 从 内 存 往 磁盘 写 数据 的 过 程 
PARKA spill. spill 可 以 认为 是 一 个 包括 sort 和 combiner (Combiner 是 可 选 的 ， 用 户 如 果 定 
义 就 有 ) 的 过 程 。 先 进行 sort 可 以 把 缓冲 区 中 一 段 范围 key 的 数据 排 在 一 起 ，( 如 果 数 据 多 
的 时 候 ， 多 次 刷新 往 内 存 缓冲 区 中 写 入 的 数据 可 能 会 有 属于 相同 范围 的 key， 也 就 是 说 ， 
多 个 spill 文件 中 可 能 会 有 统一 范围 的 key， 这 就 是 需要 下 面 map 端 merge 的 原因 )。 有 具体 
的 介绍 可 以 看 下 面 的 详细 过 程 。 执 行 过 sort 之 后 ， 如 果 用 户 定义 了 combiner 就 会 执行 
combine， 然 后 执行 merge 操作 ， 接 着 就 是 reduce 端 。 


7.4.7 排序 


每 一 个 reduce 任务 负责 归 约 Creduceing) 关联 到 相同 键 上 的 所 有 数值 ， 每 一 个 节点 收 
到 的 中 间 键 集合 在 被 送 到 具体 的 reducer 那里 前 已 经 被 Hadoop 自动 排序 。 


7.4.8 124 


每 个 reduce 任务 都 会 创建 一 个 reducer 实例 。 这 是 一 个 用 户 自 定义 代码 的 实例 ， 负 责 
执行 特定 作业 的 第 二 个 重要 的 阶段 。 对 于 每 一 个 已 赋予 到 reducer 的 partition 内 的 键 来 说 ， 
reducer 的 reduce() 方 法 只 会 调用 一 次 。 它 会 接收 一 个 键 和 关联 到 键 的 所 有 值 的 一 个 迭代 器 ， 
迭代 器 会 以 一 个 未 定义 的 顺序 返回 关联 到 同一 个 键 的 值 。reducer 同时 要 接收 一 个 
OutputCollector 和 Report 对 象 ， 它 们 像 在 Map() 方 法 中 那样 被 使 用 。 


TAI 输出 格式 


提供 给 OutputCollector 的 键 值 对 会 被 写 到 输出 文件 中 ， 写 入 的 方式 由 输出 格式 控制 。 
OutputFormat 的 功能 与 前 面 描述 的 InputFormat 类 相似 。 Hadoop 提供 的 OutputFormat 的 实 
例会 把 文件 写 在 本 地 磁盘 或 HDFS 上 , 它们 都 是 继承 自 公 共 的 FileInputFormat 类 。 每 一 个 
reducer 会 把 结果 输出 写 在 公共 文件 夹 中 一 个 单独 的 文件 内 。 这 些 文件 的 命名 一 般 是 part- 
XXXXX ， XXXXX 是 关联 到 某 个 reduce 任务 的 partition 的 id, 输出 文件 夹 通 过 
FileOutputFormat.setOutputPath() 来 设置 。 可 以 通过 具体 MapReduce 作业 的 JobConf 对 象 的 
setOutputFormat() 方 法 来 设置 具体 用 到 的 输出 格式 ， 输 出 格式 如 表 7.2 所 示 。 


表 7.2 
输出 格式 描述 
TextOutputFormat 默认 的 输出 格式 ， 以 “key \t value” 的 方式 输出 行 
SequenceFileOutputFormat 输出 二 进 制 文件 ， 适 合 读 取 为 MapReduce 作业 的 输入 
NullOutputFormat 忽略 收 到 的 数据 ， 即 不 做 输出 


Hadoop 提供 了 一 些 OutputFormat 实例 用 于 写 入 文件 ， 基 本 的 《默认 的 ) 实例 是 | 7 
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TextOutputFormat, 它 会 以 一 行 一 个 键 值 对 的 方式 把 数据 写 入 一 个 文本 文件 。 这 样 接 下 来 的 
MapReduce baga KeyValueInputFormat 类 简单 地 重新 读 取 所 需 的 输入 数据 ， 而 
且 也 适合 人 们 阅读 。 更 适合 于 在 MapReduce 作业 间 使 用 的 中 间 格 式 是 
SequenceFileOutputFormat， 它 可 以 通过 快速 地 序列 化 任意 的 数据 类 型 到 文件 中 ， 而 对 应 
SequenceFileInputFormat 则 会 把 文件 反 序列 化 为 相同 的 类 型 并 提交 为 下 一 个 Mapper 的 输入 
数据 ， 方 式 和 前 一 个 Reducer 的 生成 方式 一 样 。NullOutputFormat 不 会 生成 输出 文件 并 丢 
弃 任何 通过 OutputCollector 传递 给 它 的 键 值 对 。 如 果 想 要 reduce() 方 法 中 显示 输出 文件 并 
且 不 想 被 Hadoop 框架 输出 额外 的 空 输出 文件 ， 这 个 类 可 以 满足 要 求 。 

recordWriter: 与 InputFormat 中 通过 RecordReader 读 取 单 个 记录 的 实现 相似 ， 
OutputFormat 类 是 RecordWriter 对 象 的 工厂 方法 ， 用 来 把 单个 的 记录 写 到 文件 中 ， 如 同 
OuputFormat 直接 写 入 。 

Reducer 输出 的 文件 会 留 在 HDFS 上 供 其 他 应 用 使 用 。 比 如 另外 一 个 进行 MapReduce 
作业 ， 或 一 个 给 人 工 检查 的 单独 程序 。 


7.5 MapReduce API 编程 


751 词 频 统计 


词 频 分 析 是 对 文章 中 重要 词汇 出 现 的 次 数 进 行 统计 与 分 析 ， 是 文本 挖掘 的 重要 手段 。 
是 文献 计量 学 中 传统 的 和 具有 代表 性 的 一 种 内 容 分 析 方法 ， 基 本 原理 是 通过 词 出 现 频 次 
多 少 的 变化 , 来 确定 热点 及 其 变化 趋势 。 

词 频 统计 是 Hadoop 编程 中 最 为 经 典 的 例子 ， 其 思路 简单 ， 首 先 将 HDFS 中 的 文件 读 
取出 来 ， 然 后 在 Mapper 类 中 使 用 Stringokenizer 对 象 将 字 符 分 隔 ， 用 st.nextToken0 方 法 
循环 读 取 被 分 隔 的 字符 以 Key 形式 写 入 到 HDFS P; 并 给 每 个 字符 串 作 上 标记 ， 表 示 这 个 
字符 串 出 现 过 一 次 ; 最 后 在 Reduce 类 中 对 相同 的 key 分 组 ， kt values 值 求 和 。 由 于 values 
值 是 以 字符 形式 传 到 Reduce 类 ， 在 做 求 和 计算 前 需要 先 将 字符 类 型 转 为 int 类 型 。 

ACR: 

package com.bunfly.word count; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs. Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job; 

import org. apache. hadoop.mapreduce.1lib.input.FileInputFormat; 

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


public class Word Count { 
public static void main(String[] args) throws Exception { 
// 获 取 配 置 文件 中 的 参数 
Configuration conf = new Configuration(); 


// 通 过 参数 配置 获取 一 个 job 对 象 


Job job = Job.getInstance(conf, "Word Count"): 
// 启 动 job 需 要 知道 的 入 口 

job.setJarByClass (Word Count.class) ; 

// 启 动 Map 入 口 

job.setMapperClass (Word Count Mapper.class) ; 
// 启 动 Reduce 入 口 
job.setReducerClass (Word Count Reduce.class) ; 
// 设 置 Reduce 输 出 的 数量 
job.setNumReduceTasks (1); 

//key 值 输出 类 型 

job.setoutputKeyClass (Text.class) ; 
//value 值 输出 类 型 
job.setOutputValueClass (Text .class); 

// 设 置 输入 源 

String inl = "/input/word"; 

// 设 置 输出 路 径 

String out 
Path input 
Path output = new Path(out); 

// 将 路 径 加 入 到 文件 格式 中 

FileInputFormat.addInputPath(job, input); 
FileOutputFormat.setOutputPath(job, output); 
System.out.println(job.waitForCompletion(true) ? 0 : 1); 


"/output/word count"; 
new Path (inl); 


} 
Mapper 25: 


package com.bunfly.word count, 

import java.io.IOException; 

import java.util.StringTokenizer; 

import org.apache.hadoop.io.Text: 

import org.apache.hadoop.mapreduce.Mapper: 


public class Word Count Mapper extends Mapper<Object, Text, Text, Text) { 
public void map (Object key, Text value, Context contex) throws 
IOException, InterruptedException { 


String s = value.toString(); 
StringTokenizer st = new StringTokenizer (s); 


while (st.hasMoreElements()) { 
String wd = st.nextToken(); 
// 过 滤 符 号 


String word- wd.replace(",", "").replace(".", "") .replace(":", 


"m, .replace ("*", Ay -replace(""", SEE neprtacce(i sr replace T 
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Get enn) AAO, reper 


contex.write (new Text (word), new Text("1")); 


Reduce 25: 


package com.bunfly.word count; 

import java.io.IOException; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Reducer; 


public class Word Count Reduce extends Reducer«Text, Text, Text, Text» ( 
public void reduce (Text key, Iterable<Text> values, Context context) 
throws IOException, InterruptedException ( 
int sum-0; 
for (Text val : values) ( 
String[] q = val.toString().split("\t"); 
int num = Integer.parseInt (q[0]) ; 
sum = sum + num; 
} 
context.write(key, new Text ("出 现 : "+sum+"K") ) 7 


752 ”指定 字段 


指定 字段 是 Hadoop 编程 中 非常 适用 的 编写 方式 。 它 只 在 Mapper 类 中 编写 ， 将 文件 字 
段 映 射 到 HDFS 中 。 如 果 一 个 文件 字段 特别 多 , 而 且 只 需要 其 中 几 个 字段 ,可 以 只 在 Mapper 
类 中 编写 ， 列 出 需要 的 字段 并 写 入 到 HDFS 中 即 可 。 

例如 ， 房 产 登记 数据 只 需要 购买 人 姓名 、 电 话 和 楼 盘 名 称 ， 就 可 以 在 Mapper 类 中 实 

数据 结构 如 图 7.7 所 示 。 
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配置 类 : 


package com.bunfly.choose column; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


public class Choose Column { 

public static void main(string[] arg) throws Exception { 
Choose Column.Conf (); 

} 

public static void Conf() throws Exception { 
// 获取 配置 文件 中 的 参数 
Configuration conf = new Configuration(); 
// 通过 参数 配置 获取 一 个 job 对 象 
Job job = Job.getInstance (Conf，"Choose Column"): 
// 启动 job 需要 知道 的 入 口 
job.setJarByClass (Choose Column.class) ; 
// 启动 Map 入 口 
job.setMapperClass (Choose Column Mapper.class); 
// 关闭 Reduce 输 出 
job.setNumReduceTasks (0) : 
// key 值 输出 类 型 
job.setoutputKeyClass (Text.class) ; 
// value 值 输出 类 型 
job.setOutputValueClass (Text.class) ; 


// 设置 输入 源 

String inl = "/input/choose column"; 
// 设置 输出 路 径 

String out = "/output/choose column"; 


Path input = new Path(inl); 

Path output = new Path(out); 

// 将 路 径 加 入 到 文件 格式 中 

FileInputFormat .addInputPath (job, input); 
FileOutputFormat.setOutputPath(job, output); 
System.out.println(job.waitForCompletion (true) ? 0 : 1); 


} 


Mapper 类 : 

package com.bunfly.choose column; 第 

import java.io.IOException; T 
* 
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import org.apache.hadoop.io.Text; 


import org.apache.hadoop.mapreduce.Mapper; 


public class Choose Column Mapper extends Mapper<Object, Text, Text, Text> { 


public void map (Object key, Text value, Context context) throws 


IOException, InterruptedException { 


// 每 一 条 字符 串 按 空 格 分 隔 ， 并 存储 到 数组 中 
String[] q = value.toString().split("Nt"); 
context -write (new Text (q[8] +"\t"+ q[9] +"\t"+ q[0]), new Text ("")); 


7.53 KAPAL 


在 SQL 基本 函数 
Select 语句 的 Group by 子 句 一 起 使 用 。 在 Hadoop 编程 中 求 和 、 求 平均 等 也 是 经 常用 到 的 。 


接 下 来 求全 班 学 生 语 文 、 数 学 、 英 语 的 平均 成 绩 。 


P， 聚 合 函 数 对 一 组 值 执行 计算 ， 并 返回 单个 值 。 聚 合 函数 经 常 


score 表 的 结构 如 图 7.8 所 示 。 


o i 2 3 4 5 6 了 

学 号 姓名 | 性 别 | 出 生日 期 语文 数学 英语 班级 编号 
studentid | nane | sex birth chinese|nathenatics|englis classid 
20093333001| Xi 1995/7/15 66 51 64 | dz1955001001 
20093333002 | 周 啊 娜 | 女 1996/8/7 78 42 42 dz1955001001 
20093333003| RE | x | 1996/4/16 52 84 43 | dz1955001001 
20093333004 | 李 凤 扬 | ix | 1996/2/5 87 98 43 | dz1955001001 
20093333005| 田 文 | 女 | 1996/3/10 | null 65 76 | dz1955001001 
20093333006 | fate | 2 | 1995/9/17 81 75 97 | dz1955001001 
20093333007| 解 晶 | E 1995/8/9 94 66 72 | dz1955001001 
20093333008| We | 男 | 1995/12/17 76 null 76 | dz1955001001 
20093333009 | Ble | 男 | 1996/1/22 97 61 58 | dz1955001001 
20093333010| 43) | 女 | 1996/11/15 82 80 56 | dz1955001001 
20093333011 | 顾 庆 敏 | 女 | 1995/5/15 61 99 69 | dz1955001001 
20093333012 | 柳 媚 | 2 | 1996/2/20 99 65 93 | dz1955001001 
20093333013| Æx | 女 | 1995/10/16 82 57 85 | dz1955001001 
20093333014 = | 女 | 1995/1/7 73 75 89  |dzi955001001 
?nnag222015 | KAB 里 1006/11/23 77 £1 ET d71955NN1NN1 

图 7.8 


MAX: 


package com.bunfly.average; 


import org.apache.hadoop.conf.Configuration; 


import org.apache.hadoop.fs.Path; 


import org.apache.hadoop.io. Text: 


import org.apache.hadoop.mapreduce. Job: 


import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 


import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


与 


public class Average ( 

public static void main(String[] arg) throws Exception { 
Average .Conf (); 

H 

public static void Conf() throws Exception ( 
// 获 取 配置 文件 中 的 参数 
Configuration conf = new Configuration(); 
// 通 过 参数 配置 获取 一 个 job 对 象 
Job job = Job.getInstance (conf, "Average") ; 
// 启 动 job 需 要 知道 的 入 口 
job. setJarByClass (Average.class) ; 
// 启 动 Map 入 口 
job.setMapperClass (Average Mapper.class) ; 
// 启 动 Reduce 入 口 
job.setReducerClass (Average Reduce.class); 
// 设 置 Reduce 输 出 的 数量 
job.setNumReduceTasks (1); 
//key 值 输出 类 型 
job.setoutputKeyClass (Text.class) ; 
//value 值 输出 类 型 
job.setOutputValueClass (Text .class); 
// 设 置 输入 源 
String inl = "/input/score"; 
// 设 置 输出 路 径 
String out = "/output/averager score": 
Path input = new Path(inl); 
Path output = new Path(out); 
// 将 路 径 加 入 到 文件 格式 中 
FileInputFormat.addInputPath(job, input): 
FileOutputFormat.setOutputPath(job, output): 


System.out.println(job.waitForCompletion(true) ? 0 : 


} 
Mapper 25: 


package com.bunfly.average; 

import java.io.IOException; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Mapper; 


public class Average Mapper extends Mapper<Object, Text, Text, Text> { 
public void map (Object key, Text value, Context context) throws 


IOException, InterruptedException { 


String s = value.toString(); 


1); 
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String] q = s.split("Nt"); 

//q[7]: 班级 编号 q[4]: 语文 q[5]: 数学 gle]: 英语 
context.write (new Text(q[7]), new Text(q[4] +"\t"+ q[5] +"\t"+ 
q[61))7 


} 


Reduce 25: 


package com.bunfly.average; 
import java.io.IOException; 
import org.apache.hadoop.io.Text; 


import org.apache.hadoop.mapreduce.Reducer; 


public class Average Reduce extends Reducer<Text, Text, Text, Text» { 
public void reduce (Text key, Iterable<Text> values, Context context) 
throws IOException, InterruptedException ( 
// 用 来 接收 转换 后 的 字符 串 ，c: 语 文 m: 数 学 。 e: 英 语 
double c=0, m=0, e=0; 
double c sum-0, m sum-0, e sum=0; 
// 计 数 器 ， 记 录 全 班 多 少 人 
int count = 0; 
for (Text val : values) { 
String[] q = val.toString().split("Nt"); 
= Double.valueOf (q[0]); 
Double.valueOf (q[1]): 
Double.valueOf (q[21]); 


sum = c sum + c; 


sum — m sum -* m; 


Dodo 0 


sum = e sum + e; 
count++; 
) 
// 以 班级 编码 分 组 ， 分 别 统计 语文 、 数 学 、 英 语 平均 成 绩 
context.write(key, new Text(c sum/count +"\t"+ m sum/count +"\t"+ 


e sum/count) ); 


7.54 关联 

关联 业务 是 通过 两 个 文件 的 共有 外 键 关 联 拼 出 完整 信息 的 方式 。 在 7.5.3 节 中 求 平均 
数 业 务 ， 是 通过 班级 id 来 求 平均 数 的 。 由 于 无 法 得 知 班级 的 名 称 ， 就 需要 两 个 文件 关联 编 
程 。 一 个 文件 同样 利用 score 表 ， 另 一 个 文件 对 应 major 表 ， 表 结构 如 图 7.9 所 示 。 


0 1 2 


班级 编号 班级 名 称 系 名 称 

classid classnane deptnane 
dz1955001001 数据 挖掘 数学 系 
dz1955001002 数学 计算 WSR 
dz1955002001 生物 工程 生物 系 
dz1955002002 环境 监测 生物 系 
dz1955003001 刑侦 公安 系 
dz1955003002 犯罪 侦察 公安 系 
dz1955004001 电子 工程 电子 系 
dz1955004002 电子 应 用 电子 系 
dz1955004003 电子 技术 电子 系 
dz1955005001 Web 前端 计算 机 系 
dz1955005002 java 应 用 计算 机 系 
dz1955005003 大 数据 计算 机 系 
dz1955005004 网 络 工程 计算 机 系 

图 7.9 


配置 类 ， 


package com.bunfly.relation; 

import org.apache.hadoop.conf.Configuration: 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job: 


import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 


import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


public class Relation { 

public static void main(String[] arg) throws Exception { 
Relation.Conf (); 

} 

public static void Conf() throws Exception { 
// 获 取 配 置 文件 中 的 参数 
Configuration conf = new Configuration (): 
// 通 过 参数 配置 获取 一 个 job 对 象 
Job job = Job.getInstance (conf, Relation"); 
// 启 动 job 需 要 知道 的 入 口 
job.setJarByClass (Relation.class); 
// 启 动 Map 入 口 
job.setMapperClass (Relation Mapper.class); 
// 启 动 Reduce 入 口 
job.setReducerClass (Relation Reduce.class); 
// 设 置 Reduce 输 出 的 数量 
job.setNumReduceTasks (1); 
//key 值 输出 类 型 


job. set0utputKeyClass (Text.class) ; 


MapReduce Æ% 
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) 


//value 值 输出 类 型 
job.setoutputValueClass (Text.class); 
// 设 置 输 入 源 

String inl = "/input/score"; 

String in2 = "/input/major"; 

// 设 置 输出 路 径 

String out = "/output/relation"; 


l 


Path input = new Path (inl); 

Path input2 = new Path(in2); 

Path output = new Path (out); 

// 将 路 径 加 入 到 文件 格式 中 

FileInputFormat.addInputPath(job, input); 
FileInputFormat.addInputPath (job, input2); 
FileOutputFormat.setOutputPath(job, output); 
System.out.println(job.waitForCompletion(true) ? 0 : 1); 


Mapper 25: 


package com.bunfly.relation; 


import 
import 
import 
import 


import 


public 


java.io.IOException; 
org.apache.hadoop.io.Text; 
org.apache.hadoop.mapreduce.InputSplit; 
org.apache.hadoop.mapreduce.Mapper; 


org.apache.hadoop.mapreduce.lib.input.FileSplit; 


class Relation Mapper extends Mapper<Object, Text, Text, Text» ( 


public void map (Object key, Text value, Context context) throws 


IOException, InterruptedException ( 


InputSplit t = context.getInputSplit (); 
String path = ((FileSplit) t).getPath() .getName(); 
/* 
# 通过 路 径 判断 出 哪个 是 score 文 件 ， 哪 个 是 major 文 件 ， 以 班级 id 分 组 ， 并 给 value 
值 加 上 标记 便于 区 分 
*/ 
if (path.contains("score")) ( 
String[] q = value.toString().split("Nt"); 
context.write(new Text(q[7]), 
new Text ("AAAAA" +"\t"+ q[0] +"\t"+q[1] +"\t"+q[2] + 
"At tq[BI ENG a +°\e"+q( si) 二 NE qr61)z 
} else if (path.contains("major")) { 
String[] q = value.toString().split("\t"); 


context .write (new Text(q[0]), 


76 “习题 与 思考 


l. 根据 表 7.3 和 表 7.4， 通 过 MapReduce 框架 编写 程序 ， 统 计 出 每 个 学 生 的 考试 总 | 第 
成 绩 。 7 


章 
MapReduce RX 


Hadoop+Spark ARIER (RE) 


表 73 
姓名 性 别 出 生年 份 院 系 家 庭 住址 学 号 
光一 男 1994/11/26 上 海 20157259 
陈 二 男 1993/6/11 数学 系 北京 20153174 
= 女 1994/9/21 数学 系 北京 20157824 
李 四 男 1993/1/26 信息 工程 系 云南 20155367 
表 7.4 
学 号 课程 名 分 数 
20157259 语 90 
20157259 数学 58 
20157259 英语 39 
20153174 语文 91 
20153174 数学 95 
20153174 英语 5 
20157824 语文 60 
20157824 数学 58 
20157824 英语 53 
20155367 语文 62 
20155367 数学 43 
20155367 英语 74 


2. 根据 表 7.3 和 表 7.4， 通 过 MapReduce 框架 编写 程序 ， 统 计 出 每 个 系 的 英语 平均 成 
绩 在 所 有 系 中 的 占 比 。 


第 8 瘟 Hive 数据 仓库 


8.1 Hive 模型 


Hive 是 基于 Hadoop 构建 的 一 套数 据 仓库 分 析 工 具 , 它 提供 了 丰富 的 SQL 查询 方式 来 
分 析 存 储 在 Hadoop 分 布 式 文件 系统 中 的 数据 。 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 
库 表 ， 并 提供 完整 的 SQL 查询 功能 ， 也 可 以 将 SQL 语句 转换 为 MapReduce 任务 运行 ， 通 
过 SQL 去 查询 分 析 需 要 的 内 容 。 这 套 类 SQL 简称 HQL, 使 对 MapReduce 不 熟悉 的 用 户 利 
用 HQL 语言 查询 、 汇 总 、 分 析 数 据 ， 简 化 MapReduce 代码 ， 从 而 使 用 Hadoop 集群 。 而 
MapReduce 开发 人 员 可 以 把 已 写 的 Mapper 和 Reducer 作为 插件 来 支持 Hive 做 更 复杂 的 数 
据 分 析 。 


8.1.1 Hive 架构 与 基本 组 成 
Hive 的 架构 图 如 图 8.1 所 示 。 


\ ‘ge 


H 
! Hive 


Hive 的 体系 结构 可 以 分 为 以 下 几 部 分 。 

COD 用 户 接口 主要 有 三 个 : CLI、Java Client 和 Web WUI。 其 中 最 常用 的 是 CLI，CLI 
启动 时 会 同时 启动 一 个 Hive 副本 。Client 是 Hive 的 客户 端 ， 用 户 连接 至 Hive Server, 在 
启动 Client 模式 的 时 候 ， 需 要 指出 Hive Server 所 在 节点 ， 并 且 在 该 节点 启动 Hive Server, 
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该 访问 方式 基本 不 用 。Web WUI (Web 浏览 器 ) 通过 浏览 器 访问 Hive. 

(2) Hive 将 元 数据 存储 在 数据 库 中 ， 如 MySQL, derby. Hive 中 的 元 数据 包括 表 的 名 
字 、 表 的 列 和 分 区 及 其 属性 、 表 的 属性 〈 是 否 为 外 部 表 等 ) 以 及 表 的 数据 所 在 目录 等 。 

(3) 解释 器 、 编 译 器 、 优 化 器 完成 HQL 查询 语句 从 词法 分 析 、 语 法 分 析 、 编 译 、 优 
化 以 及 查询 计划 的 生成 。 生 成 的 查询 计划 存储 在 HDFS 中 ， 并 在 随后 由 MapReduce 调用 
执行 。 

(4) Hive 的 数据 存储 在 HDFS 中 ， 大 部 分 的 查询 、 计 算 由 MapReduce 完成 。 

Hive 将 元 数据 存储 在 RDBMS 中 ， 有 如 下 三 种 模式 可 以 连接 到 数据 库 。 

CD 单 用 户 模式 。 此 模式 连接 到 一 个 mm-memory 的 数据 库 Derby， 一 般 用 于 Unit Test. 

(2) 多 用 户 模式 。 通 过 网 络 连接 到 一 个 数据 库 中 ， 是 最 经 常 使 用 的 模式 。 

(3) 远程 服务 器 模式 。 用 于 非 Java 客户 端 访问 元 数据 库 ， 在 服务 器 端 启动 
MetaStoreServer， 客 户 端 利用 Thrift 协议 通过 MetaStoreServer 访问 元 数据 库 。 

关于 数据 存储 ，Hive 没有 专属 的 数据 存储 格式 ， 也 没有 为 数据 建立 索引 。 用 户 可 以 自 
由 组 织 Hive 中 的 表 , 只 需要 在 创建 表 的 时 候 通过 Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 , Hive 
就 可 以 解析 数据 。Hive 中 所 有 的 数据 都 存储 在 HDFS rp, 存储 结构 主要 包括 数据 库 、 文 件 、 
表 和 视图 。Hive 中 包含 以 下 数据 模型 : Table 内 部 表 、Extermal Table 外 部 表 ,， Partition 分 区 、 
Bucket fifi. Hive 默认 可 以 直接 加 载 文本 文件 ， 同 时 支持 Sequence File, RCFile. 
8.1.2 Hive 的 数据 模型 

1. Qi Hive 数据 库 


创建 数据 库 是 用 来 创建 数据 库 在 Hive 中 的 语句 。 在 Hive 数据 库 中 是 一 个 命名 空间 或 
表 的 集合 。 语 法 声明 如 下 : 


create database|schema [if not exists] <database name> 


EXE, if not exists 是 一 个 可 选 子 句 ， 通 知 用 户 已 经 存在 相同 名 称 的 数据 库 。 可 以 使 
用 schema 在 database 中 的 这 个 命令 。 

简单 示例 如 下 : 

命令 行 hive > create database test database; 


2. 内 部 表 

Hive 的 内 部 表 与 数据 库 中 的 Table 在 概念 上 是 类 似 的 。 每 一 个 Table 在 Hive 中 都 有 一 
个 相应 的 目录 存储 数据 。 例 如 一 个 表 pvs， 它 在 HDFS 中 的 路 径 为 /wh/pvs， 其 中 wh 是 在 
hive-site xml 中 由 ${hive.metastore.warehouse.dir} 指定 的 数据 仓库 的 目录 ， 所 有 的 Table Zi 
据 〈 不 包括 External Table) 都 保存 在 这 个 目录 中 。 删 除 表 时 ， 元 数据 与 数据 都 会 被 删除 。 

简单 示例 如 下 : 

创建 数据 文件 :test_inner table.txt. 

创建 表 : create table test inner table (key string). 


加 载 数据 : load data local inpath “filepath” into table test inner table. 

查看 数据 : select * from test inner table: select count(*) from test inner table. 

删除 表 : drop table test inner table. 

3. 外 部 表 

外 部 表 指 向 已 经 在 HDFS 中 存在 的 数据 ， 可 以 创建 Partition。 它 和 内 部 表 在 元 数据 的 
组 织 上 是 相同 的 ， 而 实际 数据 的 存储 则 有 较 大 的 差异 。 内 部 表 的 创建 过 程 和 数据 加 载 过 程 
可 以 分 别 独立 完成 ， 也 可 以 在 同一 个 语句 中 完成 。 在 加 载 数据 的 过 程 中 ， 实 际 数据 会 被 移 
动 到 数据 仓库 目录 中 ， 之 后 对 数据 的 访问 将 会 直接 在 数据 仓库 目录 中 完成 。 删 除 表 时 ， 表 
中 的 数据 和 元 数据 将 会 被 同时 删除 。 而 外 部 表 只 有 一 个 过 程 ， 加 载 数 据 和 创建 表 同时 完成 
(create external table…location)。 实 际 数据 是 存储 在 location 后 面 指定 的 HDFS 路 径 中 ， 并 
不 会 移动 到 数据 仓库 目录 中 。 当 删除 一 个 external table 时 ， 仅 删除 该 链接 。 

简单 示例 如 下 : 

创建 数据 文件 ，test_external_table.txt。 

创建 表 : create external table test external table (key string). 

加 载 数据 : load data inpath 'filepath' into table test inner table. 

查看 数据 : select * from test external table; “select count(*) from test external table. 

删除 表 : drop table test external table. 


8.2 Hive 的 安装 
8.2.1 Hive 的 基本 安装 


关于 Hive 的 安装 讲解 视频 可 扫描 二 维 码 观 看 。 

(1) 在 hadoop 用 户 状态 下 ， 将 Hive 的 安装 文件 拷贝 到 安装 目录 下 并 
解压 。 

(2) 配置 Hive 的 环境 变量 (需要 root 用 户 配 置 ， 因 为 porfile 文件 属于 root 用 户 ): 


Vi /etc/porfile 

添加 : 
export HIVE HOME-/xx/xx/hive.xx.xx 
export PATH-SPATH: SHIVE HOME/bin 


(3) 使 环境 变量 生效 : source /etc/porfile. 

(4) 验证 Hive: hive。 

在 这 一 步 Hive 已 经 安装 成 功 ,但 Hive 用 来 存储 元 数据 的 数据 库 是 自 带 数据 库 (derby)。 
这 个 数据 库 不 能 实现 远程 操作 ， 这 就 会 产生 不 必要 的 麻烦 。 所 以 需要 安装 另 一 个 其 他 关系 
型 数据 库 来 代替 它 自身 的 数据 库 ， 以 消除 这 个 不 足 。 
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822 MySQL 的 安装 


1. 安装 MySQL 
(1) 查看 Linux 系统 中 是 否 存在 自 带 数据 库 。 


rpm -qa | grep mysql 


(2) Hak Linux 系统 集成 的 MySQL BRE, RA A PGR EG. 08 7] B 
式 是 针对 提示 有 依赖 的 其 他 文件 时 使 用 。 

普通 删除 模式 : rpm -e mysql.xx.xx。 

强力 删除 模式 : rpm -e --nodeps mysql.xx.xx. 

(3) 通过 yum 来 安装 MySQL， 安 装 前 ， 可 以 通过 yum list | grep mysql 命令 查看 yum 
上 提供 哪些 MySQL 数据 库 可 下 载 的 版 本 。 找 到 mysql-server, mysql, mysql-devel 服务 并 
进行 安装 。 

查看 yum 上 的 程序 ， yum list | grep mysql. 

多 个 程序 安装 : yum install -y mysql-server mysql mysgl-deve. 

(4) 验证 MySQL 是 否 安装 成 功 : 


rpm -qa mysql-server 


2. MySQL 的 初始 化 

(1) 启动 MySQL 服务 : service mysqld start. 

或 者 启动 服务 : service mysqld restart. 

(2) 在 使 用 MySQL 数据 库 时 ， 需 首先 启动 MySQL 服务 。 可 以 通过 chkconfig --list | 
grep mysql 命令 来 查看 MySQL 服务 是 不 是 开机 自动 启动 ,如 果 出 现 全 部 关闭 状态 表示 没有 
开启 自动 启动 。 


chkconfig --list | grep mysqld 


结果 : mysql 0: 关 闭 1: 关 闭 2: 关 闭 3: 关 闭 4: 关 闭 5: 关 闭 6: 关 闭 。 

(3) 开启 自动 启动 : chkconfig mysqld on， 再 执行 chkconfig --listlgrep mysql。 

如 果 出 现 2、3、4、5 为 启用 状态 ， 表 示 自 动 启动 已 经 开启 。 

结果 : mysql 0: 关 闭 1: 关 闭 2: 启 用 3: 启 用 4: 启 用 5: 启 用 6: 关 闭 。 

(4) MySQL 数据 库 安装 完 以 后 只 会 有 一 个 root 管理 员 账 号 ， 此 时 的 root 账号 并 没有 
设置 密码 。 在 第 一 次 启动 MySQL 服务 时 ， 会 进行 数据 库 的 一 些 初始 化 工作 ， 在 输出 的 一 
大 串 信息 中 ， 会 看 到 “/usrbin/mysqladmin -u root password mew-password'” 信 息 ， 这 条 信 
息 告诉 我 们 需要 用 “root password mew-password'” 命 令 为 root 账号 设置 密码 。 

所 以 ， 可 以 通过 该 命令 给 root 账号 设置 密码 (这 个 root 账号 是 MySQL 的 root 账号 ， 
JE Linux 的 root 账号 )。 如 下 : 


mysqladmin -u root password ' 密 码 ' 
(5) 登录 MySQL 数据 库 : 


mysql -u root -p 


8.2.3 Hive 配置 
1 配置 MySQL 为 Hive 元 数据 存储 数据 库 
1) 使 用 root HF HEA MySQL 
mysql -u root -p 
2) 创建 hadoop 账户 
create user 'hadoop'@'localhost' identified by 'hadoop' 
3) 为 hadoop 账户 添加 权限 


grant all privileges on *.* to 'hadoop'@'localhost' with grant option 


4) 检查 账户 是 否 创建 成 功 


select User,Host from mysql.user 
5) 退出 MySQL， 并 重启 MySQL 服务 


exit, 
service mysqld restart: 


6) 使 用 hadoop 账户 登录 

mysql -u hadoop -p 

7) 创建 Hive 元 数据 库 

create database hive metadata 
8) 配置 Hive 


进入 Hive 的 conf 目录 ,把 hive-defaultxmltemplate 复制 一 个 副本 , 并 重 命名 为 hive-site. 
xml. WF: 


cp hive-default.xml.template hive-site.xml 
9) 打开 hive-site.xml 进行 相关 参数 配置 


Vi hive-site.xml 


更 改 : 
// 指 定 Hive 连 接 的 数据 库 的 数据 库 连接 字符 串 


javax.jdo.option.ConnectionURL 

jdbc:mysql://localhost:3306/hive metadata?createDatabaseIfNotExist-true 
javax.jdo.option.ConnectionDriverName 

com.mysql.jdbc.Driver 

javax.jdo.option.ConnectionUserName 
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hadoop 

// 设 置 Hive 作 业 的 本 地 临时 空间 ，iotmp 地 址 需要 自己 创建 
hive.exec.local.scratchdir 

/xx/xx/hive/iotmp 
hive.downloaded.resources.dir 
/xx/xx/hive/iotmp/$(hive.session.id) resources 


// 指 定 Hive 的 数据 存储 目录 ， 指 定 的 是 HpDFS 上 的 位 置 
hive.metastore.warehouse.dir 
/user/hive/warehouse 


10) 配置 MySQL 插件 

下 载 mysql-connector-java-5.1.10-bin.jar, 把 mysql-connector-java-5.1.10-bin.jar 放 到 Hive 
安装 目录 的 lib 下 。 

2. MEFE hosts ( 只 在 Hive 客户 端 所 在 服务 器 配置 ) 

1) 进入 root 用 户 


su -1 root 


2) 编辑 /etc/hosts 


vi /etc/hosts 


插入 : 


192.168.153.201 Hive 


8.3 HQL 详解 


关于 HQL 使 用 的 讲解 


8.3.1 Hive 数据 管理 方式 


Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 工具 ， 用 来 进行 数 
据 提取 、 转 化 、 加 载 。 这 是 一 种 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 
机 制 。Hive 定义 了 简单 的 类 SQL 查询 语言 ， 称 为 HQL， 它 允许 熟悉 SQL 的 用 户 查 询 数 据 。 
作为 一 个 数据 仓库 ，Hive 的 数据 管理 按照 使 用 层次 可 以 从 元 数据 存储 、 数 据 存储 和 数据 交换 
三 个 方面 来 介绍 。Hive 客户 端 所 安装 的 软件 如 图 8.2 所 示 。 

1， 元 数据 存储 

Hive 将 元 数据 存储 在 RDBMS 中 ， 有 以 下 三 种 模式 可 以 连接 到 数据 库 。 

CD 单 用 户 模 式 。 此 模式 连接 到 一 个 In-memory 的 数据 库 Derby. 一 般 用 于 Unit Test. 

(2) 多 用 户 模 式 。 通 过 网 络 连 接 到 一 个 数据 库 中 ， 是 最 经 常 使 用 的 模式 。 


(3) 远程 服务 器 模式 。 用 于 非 Java 客户 端 访问 元 数据 库 ， 在 服务 器 端 启动 
MetaStoreServer， 客 户 端 利用 Thrift 协议 通过 MetaStoreServer 访问 元 数据 库 。 

2， 数 据 存储 

Hit, Hive 没有 专属 的 数据 存储 格式 ， 也 没有 为 数据 建立 索引 。 用 户 可 以 自由 组 织 
Hive 中 的 表 ， 只 需要 在 创建 表 的 时 候 通告 Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 ， 就 可 以 解 
析 数 据 。 

其 次 , Hive 中 所 有 的 数据 都 存储 在 HDFS 中 , Hive 中 包含 4 种 数据 模型 : Database、 
Table、Partition 和 Bucket。 

1) Database (数据 库 ) 

这 种 模型 相当 于 关系 数据 库 中 的 命名 空间 (namespace)。 其 作用 是 将 用 户 和 数据 库 的 
应 用 隔离 到 不 同 的 数据 库 或 模式 中 。 该 模型 在 Hive 0.6.0 之 后 的 版 本 支持 ，Hive 提供 了 
create database dbname、use dbname 以 及 drop database dbname 这 样 的 语句 。 

2) Table C) 

Hive 的 表 罗 辑 上 由 存储 的 数据 和 描述 表格 中 的 数据 形式 的 相关 元 数据 组 成 。 元 数据 存 
储 在 关系 数据 库 中 。 表 存储 的 数据 存放 在 Hive 的 数据 仓库 中 , 这 个 数据 仓库 是 HDFS 上 的 
一 个 目录 ， 该 目录 是 在 hive-site.xml 中 由 ${Hive.metastore.warehouse.dir} 指 定 的 ， 这 里 假定 
为 /user/hive/warehouse/。 创 建 一 张 Hive 的 表 ， 即 在 HDFS 的 仓库 目录 下 创建 一 个 文件 夹 。 
表 分 为 内 部 表 和 外 部 表 两 种 。 

Hive 元 数据 对 应 的 表 约 有 20 个 ， 其 中 和 表 结 构 信息 有 关 的 有 9 张 ， 其 余 的 十 几 张 或 
为 空 ， 或 只 有 简单 的 几 条 记录 。 表 的 简要 说 明 如 表 8.1 所 示 。 

从 表 8.1 的 内 容 来 看 ，Hive 整个 创建 表 的 过 程 较为 清晰 。 

(1) 解析 用 户 提交 的 Hive 语句 ， 对 其 进行 解析 ， 分 解 为 表 、 字 段 、 分 区 等 Hive 对 象 。 

(2) 根据 解析 到 的 信息 构建 对 应 的 表 、 字 段 、 分 区 等 对 象 ， 从 sequence table 中 获取 
构建 对 象 的 最 新 ID， 与 构建 对 象 信息 〈 名 称 ， 类 型 等 ) 一 同 通过 DAO 方法 写 入 到 元 数据 
表 中 ， 成 功 后 将 sequence table 中 对 应 最 新 ID+5。 8 
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RA 
tbls 
table_param 


columns 

sds 
serde_param 
partitions 


partition_keys 
partition key vals 


说 明 关联 键 
所 有 Hive 表 的 基本 信息 tbl id,sd id 


表 级 属性 ， 如 是 否 为 外 部 表 、 表 注释 等 tbl_id 

Hive 表 字 段 信息 (字段 注释 ， 字 段 名 , F sd id 

段 类 型 ， 字 段 序号 ) 

所 有 Hive 表 、 表 分 区 所 对 应 的 HDFS 数 sd id,serde id 
据 目 录 和 数据 格式 

序列 化 反 序列 化 信息 ， 如 行 分 隔 符 、 列 分 serde id 
Bat. NULL 的 表示 字符 等 


Hive 表 分 区 信息 part id.sd id,tbl id 
Hive 分 区 表 分 区 键 tbl id 
Hive 表 分 区 名 ( 键 值 ) part id 


3) Partition (KÆ) 

Hive 中 分 区 的 概念 是 根据 “分 区 列 ” 的 值 对 表 的 数据 进行 粗略 划分 的 机 制 。 在 Hive 
存储 上 就 体现 在 表 的 主 目录 下 的 一 个 子 目 录 , 这 个 文件 夹 的 名 字 就 是 定义 的 “分 区 列 + 值 ”。 

分 区 以 字段 的 形式 存在 表 结 构 中 ， 通 过 describe table 命令 可 以 查看 到 字段 。 但 并 不 是 
对 应 着 数据 文件 中 某 个 列 的 字段 ， 它 不 存放 实际 的 数据 内 容 ， 仅 仅 是 分 区 的 表示 〔 伪 列 )。 

用 户 存 储 的 每 个 数据 文档 要 放 到 哪个 分 区 , 由 用 户 决定 , 这 是 单纯 的 数据 文档 的 移动 。 
即 用 户 在 加 载 数 据 的 时 候 必须 显示 的 指定 该 部 分 数据 放 到 哪个 分 区 。 

进行 分 区 的 优点 是 提高 了 查询 效率 。 在 Hive Select 查询 中 一 般 会 扫描 整个 表 内 容 ， 这 
样 就 会 消耗 很 多 时 间 成 本 。 有 时 候 我 们 只 需 扫 描 表 中 关心 的 一 部 分 数据 ， 因 此 建 表 时 引入 
了 partition 概念 。 如 当前 互联 网 应 用 每 天 都 要 存储 大 量 的 日 志文 件 , 数 GB、 数 十 GB 甚至 
更 大 都 有 可 能 。 存 储 日 志 中 必然 有 个 属性 是 日 志 产生 的 日 期 。 在 产生 分 区 时 ， 就 可 以 按照 
日 志 产 生 的 日 期 列 进行 划分 ， 把 每 一 天 的 日 志 当 作 一 个 分 区 。 


示例 如 下 。 


(1) 创建 一 个 分 区 表 ， 以 time 为 分 区 列 。 


create table partition table (id int, name string) 


partitioned 


by (time string) 


row format delimited 
fields terminated by '\t'; 


(2) 将 数据 添加 到 时 间 为 2017-01-16 的 这 个 分 区 中 。 


load data local inpath '/home/hadoop/software/data.txt' overwrite into 
table invites partition (time='2017-01-16'); 


(3) 从 一 个 分 


区 中 查询 数据 。 


select # from partition table where time -'2017-01-16', 


(4) 往 一 个 分 区 表 的 某 一 个 分 区 中 添加 数据 。 


insert overwrite table partition table 
partition (time-'2017-01-16') 
select id,max(name) from test group by id; 


C5) 使 用 以 下 命令 可 以 查看 分 区 的 具体 情况 。 
hadoop fs -ls /home/hadoop.hive/warehouse/partition table; 
或 查看 分 区 内 容 : 


hadoop fs -cat /home/hadoop.hive/warehouse/partition table/p*; 


4) Bucket ( 桶 ) 

对 于 每 一 个 表 〈Table) 或 者 分 区 ， Hive 可 以 进一步 组 织 成 桶 ， 即 桶 是 更 为 细 粒 度 的 
数据 范围 划分 。 它 是 对 数据 源 数据 文件 本 身 进行 拆 分 数据 ， 使 用 桶 的 表 会 将 源 数据 文件 按 
一 定 规律 拆 分 成 多 个 文件 。 物 理 上 ， 每 个 桶 就 是 表 ( 或 分 区 ) 目录 中 的 一 个 文件 ，Hive 是 
针对 某 一 列 进行 桶 的 组 织 。 这 里 的 列 字段 是 对 应 于 数据 文件 中 具体 某 个 列 的 Hive 采用 对 列 
值 哈 希 ， 然 后 除 以 桶 的 个 数 求 余 的 方式 决定 该 条 记录 存放 在 哪个 桶 当中 。 

把 表 (或 者 分 区 ) 组 织 成 桶 的 好 处 如 下 。 

CD 获得 更 高 的 查询 处 理 效率 。 桶 为 表 加 上 了 额外 的 结构 ，Hive 在 处 理 有 些 查 询 时 能 
利用 这 个 结构 。 具 体 而 言 ,连接 两 个 在 (包含 连接 列 的 ) 相 同 列 上 划分 桶 的 表 , 可 以 使 用 Map 
端 连接 (Map-Side Join) 高 效 地 实现 。 比 如 对 于 JOIN 操作 两 个 表 有 一 个 相同 的 列 ， 如 果 
对 这 两 个 表 都 进行 桶 操作 ， 那 么 只 需 保 存 相同 列 值 的 桶 进行 JOIN 操作 ,大 大 减少 JOIN 的 
数据 量 。 

(2) 使 取样 (Sampling) 更 高 效 。 在 处 理 大 规模 数据 集 的 开发 和 修改 查询 阶段 ， 如 果 
能 在 数据 集 的 一 小 部 分 数据 上 试 运行 查询 ， 将 带 来 很 大 便利 。 

示例 如 下 : 

(1) 创建 桶 表 。 


create table bucketed user(id int,name string) 
clustered by (id) sorted by(name) into 4 buckets 
row format delimited fields terminated by '\t' stored as textfile; 


(2) 往 桶 表 中 插入 数据 。 


insert overwrite table bucketed user 
select # from users: 


G) 对 桶 中 的 数据 进行 采样 〈 查 询 一 半 返 回 的 桶 数 )。 


select # from bucketed user tablesample (bucket 1 out of 2 on id), 
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8.3.2 HQL 操作 


l. 前 期 准备 

前 期 需要 准备 两 个 数据 文件 :Socre 和 Unit name. Socre 文件 中 记录 的 是 学 生 的 语 、 数 、 
英 考 试 成 绩 和 学 生 信息 。Unit_ name 文件 中 记录 的 是 学 院 的 组 织 结构 ， 包 括 班 级 id. BEAR 
名 称 和 系统 名 称 信 息 。 两 个 文件 可 以 通过 共有 的 classid 字 段 关 联 组 合 出 自己 所 需要 的 内 容 。 
接 下 来 将 通过 对 Socre 和 Unit name 两 个 文件 在 Hive 中 创建 表 、 加 载 数据 、 操 作 数据 、 删 


除数 据 、 删 除 表 等 多 方面 讲解 HQL 的 用 法 。 

Socre 文件 表 结 构 如 图 8.3 所 示 。 

studentid | name | sex birth chinese|mathenatics english classid 
20093333001 | E 男 | 1995/7/15 66 51 64 dz1955001001 
20093333002 女 | 1996/8/7 78 42 42 | dz1955001001 
20093333003 iz | 1996/4/16 52 dz1955001001 
20093333004 1996/2/5 87 dz1955001001 
20093333005| 田 文 | 女 | 1996/3/10 | null 65 76 | dz1955001001 
20093333006 | {ite | 女 | 1995/9/17 81 75 97 | dz1955001001 
20093333007 男 | 1995/8/9 dz1955001001 
20093333008 1995/12/17 dz1955001001 
20093333009 男 | 1996/1/22 97 61 58 | dz1955001001 
20093333010 3 | 1996/11/15 56 | dz1955001001 
20093333011 69 | dz1955001001 
20093333012 | 柳 媚 | ir | 1996/2/20 99 65 93 | dz1955001001 
20093333013| REX | 女 | 1995/10/16 82 57 85 | dz1955001001 
20093333014 i | 1995/1/7 73 75 89 | dz1955001001 
20093333015 | 3 1996/11/23 77 61 85 | dz1955001001 
20093333016| Win | B | 1995/11/24 93 66 57 | dz1955001001 

图 8.3 


Unit name 文件 表 结 构 如 图 84 所 示 。 


classid classname deptname 
dz1955001001 数据 挖掘 数学 系 
dz1955001002 数学 计算 数学 系 
dz1955002001 生物 工程 生物 系 
dz1955002002 环境 监测 生物 系 
dz1955003001 oe 公安 系 
dz1955003002 犯罪 侦察 公安 系 
dz1955004001 电子 工程 电子 系 
dz1955004002 电子 应 用 电子 系 
dz1955004003 电子 技术 电子 系 
dz1955005001 Web 前 端 计算 机 系 
dz1955005002 Java 应 用 计算 机 系 
dz1955005003 大 数据 计算 机 系 
dz1955005004 网 络 工程 计算 机 系 
图 8.4 


2. 创建 数据 库 
Hive 数据 库 是 一 个 命名 空间 或 表 的 集合 。 语 法 声明 如 下 : 


create database [if not exists] <database name> 

[if not exists] 是 一 个 可 选 子 句 ， 用 以 通知 用 户 已 经 存在 相同 名 称 的 数据 库 。 
示例 如 下 : 

create database if not exists bunfly; 

可 以 使 用 show 查看 数据 库 是 否 创建 成 功 。 以 下 命令 将 显示 出 所 有 的 数据 库 : 
show database, 

利用 use 命令 可 以 切换 到 想 要 的 数据 库 : 

use bunfly; 


3. 有 删除 数据 库 
删除 一 个 空 的 数据 库 : 


drop database [if exists] databasename: 
删除 一 个 有 内 容 的 数据 库 
drop database [if exists] databasename cascade; 


删除 数据 库 可 以 用 drop database dataname 语句 来 删除 ， 但 这 个 方式 只 能 删除 空 的 数据 
库 。 如 果 数 据 库 中 有 表 要 删除 ， 数 据 库 可 以 加 “cacade” 关 键 字 ， 或 者 先 删除 数据 库 中 的 
所 有 表 ， 然 后 再 使 用 drop database dataname 语句 进行 删除 。ifexists 关键 字 判 断 Hive 中 是 
和 否 存在 此 数据 库 名 ， 如 果 没 有 将 通知 用 户 不 存在 此 数据 库 名 。 

4. 创建 内 部 表 ( 管理 表 ) 

Hive 由 SQL 语法 演变 而 来 ， 其 数据 类 型 与 SQL 基本 相似 。Hive 常用 的 基本 数据 类 型 
如 表 8.2 所 示 。 


表 8.2 
数据 类 型 说 明 
int 整 型 ，4B 整数 
bigint 整 型 ，8B 整数 
boolean 布 尔 类 型 ，true 或 false 
float 
double 
string 字符 串 m 
创建 内 部 表 的 示例 如 下 : 


create table bunfly.score ( 
studentId string, 


name string, 第 
Sex string, 8 
birth string, 

章 
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chinese double, 

mathematics double, 

english double, 

classid string 

) 

row format delimited fields terminated by '\t'; 


上 面 语句 在 bunfly 数据 库 中 创建 了 一 张 名 为 score 的 内 部 表 ， 并 以 \t IKA CoD 


分 隔 数据 。 


格 》 


create table bunfly.unit name ( 
classid string, 
classname string, 
deptname string 


) 


row format delimited fields terminated by '\t'; 

上 面 语句 在 bunfly 数据 库 中 创建 了 一 张 名 为 unit name 的 内 部 表 ， 并 以 \t TIAE CR 
分 隔 数据 。 

5 修改 表 

D EMAK 

语法 : 


alter table <ago tablename> rename to <new tablename> 


ago tablename 是 现在 的 表 文 件 ，new_tablename 是 修改 后 的 表 名 ， 当 执行 alter table 


<ago_tablename> rename to <new_tablename> 语 句 后 , Hive 将 修改 表 的 名 称 和 在 HDFS 中 的 
文件 目录 名 。 


2) 添加 列 
语法 : 


alter table tablename add columns ( 
columnsl type, 
columns2 type, 


) 


coulumnsX 是 需要 增加 的 列 名 (也 称 字段 名 )， 实 现在 现 有 的 列 后 新 增 列 。 
3) 修改 列 顺序 
语法 : 


alter table tablename change column columns1 columns1 string after columns2; 


新 增 列 的 位 置 不 符合 要 求 ， 是 因为 原 数 据 的 内 容 位 置 和 所 创建 的 表 字 段位 置 不 对 应 ， 


这 时 就 要 使 用 修改 列 的 顺序 的 语句 。alter table tablename change column columns! columns1 
string after columns2 语句 中 的 tablename 是 要 修改 列 的 表 (也 可 以 指定 数据 库 )，columns1 


是 要 移动 的 列 〈 注 意 这 里 是 两 个 columns! 字段 )，columns2 代表 要 将 columns] 移动 到 
columns2 之 后 。 

4) 删除 列 

语法 : 


alter table tablename replace columns (columns type); 


columns type 是 需要 删除 的 字段 和 字段 的 类 型 。 
6 加 载 数据 到 内 部 
从 本 地 加 载 数 据 到 score 表 中 : 


load data local inpath '/home/user/inputfile/score.txt' overwrite into 
table bunfly.score; 


从 HDFS 加 载 数 据 到 unit name 表 中 : 


load data inpath '/input/unit name.txt' overwrite into table bunfly. 
unit name; 


如 果 语 名 加 上 “local” 关 键 字 ，inpath 后 的 路 径 是 本 地 路 径 ， 加 载 到 Hive 表 中 的 数据 
将 从 本 地 复制 数据 到 Hive 表 对 应 的 HDFS 中 。 如 果 语 句 没 有 加 上 “local” 关 键 字 ，inpath 
后 面 的 路 径 是 HDFS 中 的 路 径 ， 那 么 加 载 到 Hive 表 中 的 数据 将 从 HDFS 源 数据 位 置 移 动 
到 Hive 表 对 应 的 HDFS 目录 下 ，HDFS 源 数据 将 被 删除 。 

“overwrite "关键 字 是 可 选项 , 加 上 代表 覆盖 原文 件 中 的 所 有 内 容 。 如果 不 加 “overwrite” 
关键 字 ， 将 会 在 原文 件 的 基础 上 追加 新 的 内 容 。 

7， 插 人 数据 

语法 : 

insert overwrite table to tablename [partiton (partcoll=vall, partcol2= 


Val2,…)] 
select columnl,column2,…， [Vall,val2] from from tablename 


partiton 动态 插入 数据 到 分 区 表 ， 其 分 区 字段 需要 与 插入 字段 最 尾部 字段 对 应 。 例 如 ， 
vall 与 select 中 的 vall 对 应 ，val2 与 select 中 的 val2 对 应 。 如 果 需 要 创建 非常 多 的 分 区 ， 
用 户 就 需要 写 入 非常 多 的 SQL， 而 动态 插入 可 以 基于 查询 参数 推断 出 需要 创建 的 分 区 名 
称 。 动 态 插入 需要 与 分 区 表 字 段 一 致 ， 分 区 字段 可 以 有 多 个 ， 并 且 对 应 最 后 一 个 字段 。 例 
如 ， 如 果 有 两 个 分 区 字段 ， 分 区 表 第 一 个 分 区 字段 对 应 的 是 查询 的 倒数 第 二 个 字段 ， 分 区 
表 第 二 个 分 区 字段 对 应 的 是 查询 的 倒数 第 一 个 字段 。 

在 执行 动态 插入 前 必须 先 开启 动态 插入 功能 : 


set hive.exec.dynamic.partition.mode=nonstrict; 
示例 如 下 : 


insert overwrite table bunfly.score2 
select * from bunfly.score; 


Hive KHO 


第 
8 
地 


Hadoop+Spark XRGERK (RE) 


将 bunfly 数据 库 中 的 score 表 内 容 全 部 查询 出 来 ， 插 入 到 bunfly 数据 库 中 的 score2 4 


， 并 重 写 score2 表 的 内 容 。 执 行 上 面 语句 相当 于 数据 备份 ， 将 数据 复制 出 新 的 副本 。 


通过 查询 将 数据 保存 到 本 地 文件 。 语 法 如 下 : 


insert overwrite [local] directory path directory 
select * from tablename; 


示例 如 下 : 


insert overwrite local directory*/home/user/hive’ 
select # from bunfly.score; 


将 bunfly 数据 库 中 查询 出 来 的 score 表 的 结果 写 入 到 本 地 user 用 户 的 家 目录 下 的 Hive 


文件 中 。 产 生 的 文件 会 覆盖 指定 目录 中 的 其 他 文件 ， 即 将 目录 中 已 经 存在 的 文件 删除 。 


中 。 


insert overwrite directory ‘/user/hive’ 
select # from bunfly.score; 


将 bunfly 数据 库 中 查询 出 来 的 score 表 的 结果 写 入 到 HDFS 中 user 目录 下 的 Hive 文件 
产生 的 文件 会 覆盖 指定 目录 中 的 其 他 文件 ， 即 将 目录 中 已 经 存在 的 文件 删除 。 

8. 创建 外 部 表 

在 创建 表 的 时 候 可 以 指定 extemal 关键 字 创 建 外 部 表 ， 外 部 表 对 应 的 文件 存储 在 


location 指定 的 目录 下 。 向 该 目录 添加 新 文件 的 同时 ,该 表 会 读 取 到 该 文件 , 但 删除 外 部 表 
不 会 删除 location 指定 目录 下 的 文件 。 


创建 外 部 表 : 


create external table bunfly.score2 ( 
studentId string, 
name string, 
sex string, 
birth string, 
chinese double, 
math double, 
english double, 
classId string 
) 
row format delimited fields terminated by '\t'; 
load data inpath '/input/score.txt' overwrite into table bunfly.score2; 


上 面 语 句 在 bunfly 数据 库 中 创建 了 一 张 score2 的 外 部 表 ， 并 以 Lt 制 表 符 (空格 ) 分 隔 


数据 。 从 HDFS 中 input 目录 下 移动 score.txt 文件 到 bunfly 数据 库 中 score2 表 在 HDFS 对 
应 的 目录 下 。 


内 部 表 与 外 部 表 除 了 创建 方式 不 同 ， 其 他 使 用 均 相 同 。 可 以 通过 desc formatted 


bunfly.score2 查询 表 是 内 部 表 还 是 外 部 表 。 


内 部 表 与 外 部 表 有 以 下 区 别 : 
。 创建 内 部 表 时 ， 会 将 数据 移动 到 数据 仓库 指向 的 路 径 。 内 部 表 的 数据 属于 自己 ， 而 
外 部 表 的 数据 不 属于 自己 。 


。 在 删除 内 部 表 的 时 候 ，Hive 将 会 把 属于 表 的 元 数据 和 数据 全 部 删 掉 。 而 删除 外 部 表 
的 时 候 仅仅 删除 表 的 元 数据 ， 数 据 不 会 被 删除 。 

。 外 部 表 相 对 来 说 更 加 安全 ， 数 据 组 织 也 更 加 灵活 ， 方 便 共享 源 数据 。 一 般 情况 下 ， 
如 果 所 有 处 理 都 需要 由 Hive 完成 ， 那 么 应 该 创建 内 部 表 ， 和 否则 使 用 外 部 表 。 

9. 创建 分 区 表 

Hive 的 分 区 表 中 分 区 列 不 是 表 中 的 一 个 实际 的 字段 ， 而 是 一 个 或 者 多 个 伪 列 ， 即 在 表 

的 数据 文件 中 实际 上 并 不 保存 分 区 列 的 信息 与 数据 。 
创建 分 区 表 : 


create table bunfly.score3 ( 

studentId string, 

name string, 

sex string, 

birth string, 

chinese double, 

math double, 

english double 

) 

partitioned by (classId string) 

row format delimited fields terminated by '\t'; 
load data inpath '/input/score.txt' overwrite into table bunfly.score3 
artition (classId); 


上 面 示例 在 bunfly 数据 库 中 创建 了 一 个 score3 分 区 表 ， 分 区 字段 以 classId 分 区 ， 并 
以 \t 制 表 符 分 隔 。 然 后 从 HDFS 中 input 目录 下 移动 数据 到 score3 对 应 的 HDFS 目录 下 ， 
其 中 score.txt 文件 内 的 最 后 的 一 列 作为 动态 分 区 字段 。 例 如 : calssId 是 班级 ID， 将 把 相同 
HER ID 的 所 有 内 容 放 在 一 起 ， 并 以 calaald 内 容 为 文件 名 。 

10. HQL 的 常用 操作 

1) 语法 

select columnl, column2,--from tablename 

示例 如 下 : 

(1) 查询 score 表 中 所 有 同学 的 语 、 数 、 英 成 绩 。 

select name, chinese, mathematics, english from bunfly.score; 

(2) 查询 score 表 中 所 有 信息 可 以 通过 写 入 所 有 字段 查询 所 有 信息 。 如 果 字 段 比较 多 
查询 输入 量 会 非常 大 ， 可 以 通过 “ * ”通配符 来 代表 所 有 字段 。 

select * from bunfly.score; 

(3) 使 用 limit 命令 可 以 查看 若干 行 的 数据 ， 如 下 命令 查看 score 表 中 前 十 行 数据 。 


select # from bunfly.socre limit 10, 
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(4) 如 果 要 查看 多 个 班 ， 可 以 通过 distinct 来 实现 。 


select distinct classId from bunfly.score; 


2) Hive 中 同样 也 支持 where、group by、order by 等 语句 
CL) 查看 英语 成 绩 及 格 的 所 有 同学 的 信息 。 


select * from bunfly.score where english >= 60; 
(2) 查看 各 个 班 英语 成 绩 总 分 。 
select classId, sum(english) from bunfly.score; 


(3) 查看 dz1955001001 班 的 学 生 及 英语 成 绩 ， 并 按 降序 排序 。 


select classId, name, english from bunfly.score where classId= 'dz1955001001' 
order by desc; 


(4) 查看 各 个 班 英 语 平均 成 绩 大 于 80 的 班级 。 

select classId，avg(english) avg eng from bunfly.score group by classId 
having avg eng580: 

3) union all 和 union 

它们 两 个 都 可 以 把 两 个 或 多 个 表 进 行 合 并 , 每 一 个 union 子 查 询 都 必须 具有 相同 的 列 。 
union: 对 两 个 结果 集 进 行 并 集 操作 ， 不 包括 重复 行 ， 同 时 进行 规则 的 排序 。 

union all: 对 两 个 结果 集 进 行 并 集 操作 ， 包 括 重 复 行 ,同时 进行 规则 的 排序 。 
示例 如 下 : 

create table score3 

as 

select name,chinese,mathematics,english from bunfly.scorel 


union all 
select name, chinese,mathematics, english from bunfly.score2; 


上 述 操作 将 scorel 和 score2 表 的 name, chinese, mathematics 和 english 字段 查询 出 来 ， 
并 新 创建 一 张 score3 表 把 刚刚 查询 出 来 的 内 容 插 入 到 score3 表 中 。 也 可 以 看 作 将 scorel 和 
score2 复制 到 一 个 文件 中 并 把 它 重新 命名 为 score3。 

Hive 操作 符 如 图 8.5 所 示 。 


支持 的 数据 类 弄 
A=B 基本 数据 类 型 如果 A 等 于 B 则 返回 true 
Ac>B ,AI=B 基本 数据 类 弄 如 果 A 不 等 于 B 则 返回 true 
AcB 基本 数据 类 型 A 小 于 B 返 回 true 
A<=B 基本 数据 类 型 A 小 于 等 于 B 返 回 true 
A>B 基本 数据 类 型 A 大 于 B 返 回 true 
A>=B 基本 数据 类 型 A 大 于 等 于 B 返 回 true 
A [not] between Band C 基本 数据 类 型 A 在 B 和 C 之 间 返 回 true 
Ais null 所 有 数据 类 型 AE nulli Eltrue 
Ais not null. 所 有 数据 类 型 A 不 是 null 返 回 true 
A [not] like B String 关 型 A 与 B 匹 本 返回 true 
Arlike B. String 类 型 A 与 BIE 配 返回 true 


Hive 算术 运算 符 如 图 


8.6 所 示 。 


Hive 数据 函数 如 图 8.7 所 示 。 


运算 符 类 型 
A+B 数值 
A-B 数值 
A'B 数值 
A/B 数值 
A%B 数值 

图 8.6 


Hive 聚合 函数 如 图 8.8 所 示 。 


返回 值 
类 型 
int 
int 

double 

double 


double 


double 
double 


返回 值 类 型 格式 描述 
double Round(double d) 四 舍 五 入 ， 保 留 整数 
double Round(double d,int n) MEEA, Renit 
double Rand()arand(int d) 随机 数 ， 范 围 为 0~1 
double Ln(double d) 以 自然 数据 为 底 ，d 的 对 数 
A 和 B 相 加 double ^ Log(double ba,double d) 以 ba 为 底 ，d 的 对 数 
AREB double Sqrt(double d) 计算 d 的 平方 根 
ate double abs(doubled) 计算 的 绝对 值 
人 返回 商 double Sin(double d) 正弦 值 
A 除 以 B。 返 回 余 double Cos(double d) 余弦 值 
数 double Tan(doubled) 正切 什 
图 8.7 
| 格式 描述 
count(*) 计算 总 行 数 ， 包 含 null 
count(1) 计算 总 行 数 ， 不 含 null 
sum(col) m 
avg(col) 求 平均 值 
min(col) 求 最 小 数 
max(col) 求 最 大 数 
var_pop(col) 求 方差 
stddev pop(col) 求 标 准 偏差 
corr(colucolz) 两 组 数值 的 关系 
图 8.8 


Hive 内 置 函数 如 图 8.9 和 图 8.10 所 示 。 


返回 值 类 型 


string concat(string sustring s2,...) 


string concat ws(#ayb)c') 
int length(string s) 

string lower(string s) 

string upper(string s) 


描述 
将 si 和 s2 拼 接 
带 分 隔 符 的 字符 串 拼接 
计算 字符 串 长 度 
将 字符 串 全 部 转换 成 小 写字 母 
将 字符 串 全 部 转换 成 大 写字 母 


string Ipad(string sint len,string p) ” 从 左边 开始 对 字符 串 进行 填充 ， 到 len 
长 度 为 止 


string rpad(string s,int len,string p) ”从 右边 开始 对 字符 串 进行 填充 , 到 len 
长 度 为 止 


string 
double 
double 


ltrim(string s) 
rtrim(string s) 
trim(string s) 


8.9 


去 掉 左边 空格 
去 掉 右边 空格 
去 掉 前 后 全 部 空格 
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string regexp extract(string s,string 蔡 换 某 个 字符 
regex,string replacement) 将 字符 串 s 中 符合 条 件 的 部 分 替换 成 
replacement 所 指定 的 字符 串 a 
string Translate(string s,string 蔡 换 某 个 字符 
from,string to) 绝对 匹配 替换 
string Repeat(string sint n) 重复 输出 n 次 字符 串 
string Reverse(string s) 反 转 字符 串 


string Substr(string sint Lintj) 对 字符 串 s 从 start 位 置 开 始 截 取 length 长 
度 的 字符 串 ， 作 为 子 字符 串 


图 8.10 
84 习题 与 思考 


l. 根据 表 8.3 和 表 8.4， 通 过 编写 Hive 脚本 创建 Student KAI Score 表 ， 并 加 载 表 8.3 
和 表 8.4 的 数据 。 


表 83 

姓名 性 别 出 生年 份 家 庭 住址 学 号 

刘 一 男 1994/11/26 上 海 20157259 

陈 二 男 1993/6/11 北京 20153174 

张 三 女 1994/9/21 北京 20157824 

李 四 男 1993/1/26 信息 工程 系 云南 20155367 

表 84 
学 号 课程 名 分 数 

20157259 语文 90 
20157259 数学 58 
20157259 外 语 39 
20153174 语文 91 
20153174 数学 95 
20153174 外 语 75 
20157824 语文 60 
20157824 数学 58 
20157824 外 语 53 
20155367 语文 62 
20155367 数学 43 
20155367 外 语 74 


2. 尝试 统计 出 每 个 系 所 有 科目 平均 成 绩 在 所 有 系 中 的 占 比 。 
3. 尝试 统计 出 每 个 系 考试 不 合格 学 生 的 占 比 。 


第 9 章 HBase 分 布 式 数据 库 


HBase 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 利 用 HBase 技 
术 可 在 廉价 的 PC 服务 器 上 搭建 大 规模 结构 化 的 存储 集群 。 与 MapReduce 的 离线 批 处 理 计 
算 框架 不 同 ，HBase 是 一 个 可 以 随机 访问 的 存储 和 检索 数据 平台 ， 弥 补 了 HDFS 或 Hive 
不 能 随机 访问 数据 的 缺陷 ， 适 合 实时 性 要 求 不 是 非常 高 的 业务 场景 。 

HBase 从 另 一 个 角度 处 理 伸缩 性 问题 , 它 通过 线性 方式 从 下 到 上 增加 节点 来 进行 扩展 。 
HBase 不 是 关系 型 数据 库 ， 也 不 支持 SQL， 但 是 它 有 自己 的 特长 ， 这 是 RDBMS 不 能 处 理 
的 ，HBase 巧妙 地 将 大 而 稀 下 的 表 放 在 商用 的 服务 器 集群 上 。 

HBase 是 Google Bigtable 的 开源 实现 ， 与 Google Bigtable 利用 GFS 作为 其 文件 存储 
系统 类 似 ，HBase 利用 Hadoop HDFS 作为 其 文件 存储 系统 。Google 运行 MapReduce 来 处 
理 Bigtable 中 的 海量 数据 ，HBase 同样 利用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数 
Hi, Google Bigtable 利用 Chubby 作为 协同 服务 ，HBase 则 利用 Zookeeper 作为 对 应 。 

HBase 主要 有 以 下 几 个 特点 : 

OD 大 。 一 个 表 可 以 有 上 亿 行 ， 上 百 万 列 。 

(2) 面向 列 。 面 向 列表 ( 族 ) 的 存储 和 权限 控制 ， 列 〈 族 ) 独立 检索 。 

G) io XFAR NULL) 的 列 ， 并 不 占用 存储 空间 。 因 此 ， 表 可 以 设计 得 非常 

(4) 无 模式 。 每 一 行 都 有 一 个 可 以 排序 的 主键 和 任意 多 的 列 ， 列 可 以 根据 需要 动态 增 
加 ， 同 一 张 表 中 不 同 的 行 可 以 有 截然 不 同 的 列 。 

(5) 数据 多 版 本 。 每 个 单元 中 的 数据 可 以 有 多 个 版 本 ,默认 情况 下 ,版 本 号 自动 分 配 ， 
版 本 号 就 是 单元 格 插入 时 的 时 间 戳 。 

(6) 数据 类 型 单一 。HBase 中 的 数据 都 是 字符 串 ， 没 有 类 型 。 


9.1 HBase 工作 原理 


9.1.1 HBase 表 结构 


HBase 表 结 构 如 图 9.1 所 示 。 

1. Row Key 

与 NoSQL 数据 库 一 样 ，Row Key 是 用 来 检索 记录 的 主键 。 访问 HBase Table 中 的 行内 
有 以 下 三 种 方式 。 

。 通过 单个 Row Key 访问 ; 
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e 通过 Row Key 的 Range; 
。 全 表 扫描 。 
Column family 001 Column family 002 Column family N 
Row Key 
Column1 | Column? | Column1 | Column2 | Column3 Column1 
80 | | 
keyl 
100 
key! | | | 
ke | | | 


图 9.1 


Row Key 行 键 可 以 是 任意 字符 串 〈 最 大 长 度 是 64KB， 实 际 应 用 中 长 度 一 般 为 10 一 
100B)， 在 HBase 内 部 ，Row Key 保存 为 字 节 数组 。 

存储 时 ， 数 据 按 照 Row Key 的 字典 序 (Byte Order) 排序 存储 。 设 计 Key 时 ， 要 充分 
排序 存储 这 个 特性 ， 将 经 常 一 起 读 取 的 行 存储 到 一 起 〈 位 置 相关 性 )。 


IER: 字典 序 对 int 排序 的 结果 是 1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9，, 
91.92,93,94.95.96.97.98.99。 要 保持 整 型 的 自然 序 ， 行 键 必 须 用 0 作 左 填充 。 


2. Billie 

HBase 表 中 的 每 个 列 ， 都 归属 于 某 个 列 族 。 列 族 是 表 的 chema 的 一 部 分 而 列 不 是 )， 
必须 在 使 用 表 之 前 定义 。 列 名 都 以 列 族 作 为 前 组 。 例 如 courses:history, courses:math 都 属 
于 courses 这 个 列 族 。 

访问 控制 、 磁 盘 和 内 存 的 使 用 统计 都 是 在 列 族 层面 进行 的 。 实 际 应 用 中 ， 列 族 上 的 控 
制 权限 能 帮助 管理 不 同类 型 的 应 用 : 允许 一 些 应 用 可 以 添加 新 的 基本 数据 、 读 取 基 本 数据 
并 创建 继承 的 列 族 ， 但 一 些 应 用 则 只 允许 浏览 数据 (由 于 隐私 可 能 无 法 浏览 所 有 数据 )。 

3. Map 

HBase 中 通过 row 和 columns 确定 的 存储 单元 称 为 cell。 每 个 cell 都 保存 着 同一 份 数 
据 的 多 个 版 本 , 版 本 通过 时 间 戳 来 索引 。 时 间 戳 的 类 型 是 64 位 整 型 。 时 间 戳 可 以 由 HBase 
(在 数据 写 入 时 自动 ) 赋值 ,此 时 时 间 戳 是 精确 到 毫秒 的 当前 系统 时 间 。 时 间 戳 也 可 以 由 客 
户 显 式 赋值 。 如 果 应 用 程序 要 避免 数据 版 本 冲突 ， 就 必须 生成 具有 唯一 性 的 时 间 惟 。 每 个 
cell 中 ， 不 同 版 本 的 数据 按照 时 间 倒 序 排序 ， 即 最 新 的 数据 排 在 最 前 面 。 

为 了 避免 数据 存在 过 多 版 本 造成 的 管理 〈 包 括 存 储 和 索引 ) 负担 ，HBase 提供 了 两 种 
数据 版 本 回收 方式 ， 一 是 保存 数据 的 最 后 n 个 版 本 ， 二 是 保存 最 近 一 段 时 间 内 的 版 本 《〈 比 
如 最 近 七 天 )。 用 户 可 以 针对 每 个 列 族 进 行 设置 。 

4. cell 
Hi (row key, column( =<family> + <label>), version} 唯 一 确定 的 单元 。cell 中 的 数据 是 没 
有 类 型 的 ， 全 部 是 字 节 人 码 形式 存储 。 


9.1.2 体系 结构 
HBase 体系 结构 如 图 9.2 和 图 9.3 所 示 ，HBase 读 写 流程 如 图 9.4 所 示 。 


Master 


RegionServer ResionServer RegionServer 


图 92 


Master 
-ROOT- 


RegionServer RegionServer 


1. client 
也 含 访问 HBase 的 接口 , client 维护 着 一 些 cache 来 加 快 对 HBase 的 访问 , 比如 Region 

的 位 置信 息 。 

2. Zookeeper 

CD 保证 任何 时 候 ， 集 群 中 只 有 一 个 HMaster。 

(2) 实时 监控 HRegion Server 的 上 线 和 下 线 信息 ， 并 实时 通知 给 HMasert。 

(3) 存储 HBase 的 Table 表 数 据 和 存储 所 有 Region 的 寻 址 入 口 。 

3. HMaster 

理论 上 HMaster 可 以 启动 多 个 ， 但 是 Zookeeper 有 MasterElection 机 制 保证 只 有 一 个 
HMaster 在 运行 ， 来 负责 Table 和 Region 的 管理 工作 。 

(1) 管理 HRegionServer 的 负载 均衡 ， 调 整 Region 分 布 。 

(2) Region Split 后 ， 负 责 新 的 Region 的 分 布 。 


(3) 在 HRegionServer 停机 后 ， 负 责 失 效 HRegionServer 上 Region 的 迁移 工作 。 9 
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1. 分 布 Region 
2. 负责 失效 HRegionServer| 
上 Region 的 迁移 


1 各 知 元 数据 信息  / 

2. 告知 HRegionServer 状 态 / 
7, 管理 HMaster 

vA 2. 获取 HRegionServer 状 态 


Zookeeper 集 群 
存储 表 元 数据 
监控 HRegionServer 状 态 
~ 
Ve rs 
获取 Region 信 息 \ Nhe ps 入 数据 
x f 
Client 


4. HRegion Server 

HBase 中 的 所 有 数据 都 是 保存 在 HDFS 中 ， 用 户 通过 一 系列 的 HRegionServer 获取 这 
些 数据 。 一 个 节点 上 只 有 一 个 HRegionServer 和 多 个 HRegion, 每 一 个 区 段 的 HRegion 只 会 
被 一 个 HRegionServer 维护 ，HRegionServer 主要 负责 响应 用 户 VO 请求， 向 HDFS 文件 系 
统 读 写 数据 。 

5. HRegion 

HRegion 是 用 来 存储 实际 数据 的 。 当 表 的 大 小 超过 预 设 时 ，HBase 会 自动 生成 多 个 
Region 来 存储 数据 。 

6. HLog 

每 个 HRegionServer 中 都 有 一 个 HLog 对 象 ， 实 现 用 户 操作 记录 。 在 用 户 操作 将 数据 
“GN MemStore 的 时 候 ， 同 时 会 写 一 份 数据 到 HLog 文件 中 ，HLog 文件 会 定期 滚动 刷新 ， 
并 删除 旧 的 文件 。 

HLog 的 作用 : 当 HRegionServer 意外 终止 ，HMaster 会 通过 遗留 的 HLog 文件 ， 把 不 
IH] HRegion 的 HLog 数据 进行 拆 分 ， 分 别 放 到 相应 的 HRegion 的 目录 下 ， 然 后 再 将 失效 的 
HRegion 重新 分 配 到 其 他 的 HRegionServer 中 ， 完 成 数据 恢复 。 


913 物理 模型 
HBase 的 物理 模型 如 图 9.5 所 示 。 


图 9.5 


Region 是 按 大 小 分 割 的 ， 每 个 表 开始 只 有 一 个 Region。 随 着 数据 增多 ，Region 不 断 增 
大 ， 当 增 大 到 一 个 闵 值 的 时 候 ，Region 就 会 分 出 一 个 新 的 Region， 之 后 会 有 越 来 越 多 的 
Region. 

Region 是 HBase 中 分 布 式 存储 和 负载 均衡 的 最 小 单元 ， 不 同 Region 分 布 到 不 同 
RegionServer 上 ， 如 图 9.6 所 示 。 


9.6 


Region 虽然 是 分 布 式 存储 的 最 小 单元 , 但 并 不 是 存储 的 最 小 单元 。Region 是 由 一 个 或 
多 个 Store 组 成 的 ， 每 个 Store 由 一 个 MemStore 和 多 个 StoreFile 组 成 。 数 据 写 入 时 首先 进 
入 到 MemStor 中 并 存储 在 内 存 中 。MemStore 中 的 数据 是 排序 的 ， 当 MemStore 累计 到 一 定 
阅 值 时 ， 就 会 创建 一 个 新 的 MemStore， 并 且 将 老 的 MemStore 添加 到 Flush 队列 ， 由 单独 
的 线程 Flush 到 磁盘 上 ， 成 为 一 个 StoreFile。 当 一 个 Store 中 的 StoreFile 达到 一 定 阔 值 后 ， 
就 会 进行 一 次 合并 操作 ,将 对 同一 个 key 的 修改 合并 到 一 起 ， 形 成 一 个 大 的 StoreFile。 当 
StoreFile 的 大 小 达到 一 定 阔 值 后 ， 又 会 对 StoreFile 进行 切 分 操作 ， 等 分 为 两 个 StoreFile。 


9.1.4 HBase 读 写 流程 
正如 HDFS 和 MapReduce 由 客户 端 、 数 据 节 点 和 主 节点 组 成 一 样 ，HBase 也 是 采用 相 | 9 
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同 的 主 从 结构 模型 ， 它 由 一 个 Master 节点 协调 管理 一 个 或 多 个 RegionServer 节点 。 

HBase 主 节点 负责 启动 整个 HBase 集群 ， 通 过 “心跳 机 制 ” 得 到 RegionServer 节点 工 
作 状 态 , 并 管理 Region 数据 的 分 发 。 当 一 个 RegionServer 节点 发 生 故 障 或 者 宕 机 后 , Master 
节点 中 的 HMaster 进程 将 把 该 节点 标记 为 故障 , 并 协调 其 他 负载 较 轻 的 RegionServer 节点 ， 
将 故障 RegionServer 节点 中 的 数据 复制 到 自己 的 节点 中 ， 以 保证 数据 的 完整 性 。 

RegionServer 节点 主要 负责 响应 客户 端的 读 写 请 求 和 数据 的 存储 ， 定 期 地 通过 “心跳 
机 制 ” 向 HMaster 节点 反馈 自己 的 健康 状态 和 数据 位 置 。 

HBase 读 写 流程 如 图 9.7 所 示 。 


获取 地 址 入 口 J 


wy 


HRegionServer 


图 97 
1， 写 操作 流程 
(1) Client 通过 Zookeeper 的 调度 ， 向 HRegionServer 发 出 写 数据 请 求 ， 在 HRegion 中 


(2) 数据 被 写 入 HRegion 的 MemStore， 直 到 MemStore 达到 预 设 阔 值 。 

(3) MemStore 中 的 数据 被 Flush 成 一 个 StoreFile. 

(4) 随 着 StoreFile 文件 的 不 断 增 多 ， 当 其 数量 增长 到 一 定 阔 值 后 ， 触 发 Compact 合并 
操作 ， 将 多 个 StoreFile 合并 成 一 个 StoreFile， 同 时 进行 版 本 合并 和 数据 删除 。 


(5) StoreFiles 通过 不 断 的 Compact 合并 操作 ， 逐 步 形成 越 来 越 大 的 StoreFile。 

(6) 单个 StoreFile 大 小 超过 一 定 阔 值 后 ， 触 发 Split 操作 ， 把 当前 HRegion Split 成 两 
个 新 的 HRegion. 4? HRegion 会 下 线 , 新 Split 出 的 两 个 子 HRegion 会 被 HMaster 分 配 到 相 
应 的 HRegionServer 上 ， 使 得 原先 一 个 HRegion 的 压力 得 以 分 流 到 两 个 HRegion 上 。 

2.， 读 操作 流程 

(1) Client 访问 Zookeeper， 查 找 -ROOT- 表 ， 获 取 .META. 表 信息 。 

(2) 从 .META. 表 查找 ， 获 取 存 放 目 标 数据 的 HRegion 信息 ， 从 而 找到 对 应 的 
HRegionServer. 

(3) 通过 HRegionServer 获取 需要 查找 的 数据 。 

(4) HRegionserver 的 内 存 分 为 MemStore 和 BlockCache 两 部 分 ，MemStore 主要 用 于 
写 数 据 ，BlockCache 主要 用 于 读数 据 。 读 请 求 将 先 到 MemStore 中 查 数 据 ， 如 果 无 法 查询 
到 就 会 转 到 BlockCache， 再 查询 不 到 就 会 到 StoreFile， 并 把 读 的 结果 放 入 BlockCache。 


9.2 HBase 完全 分 布 式 


关于 HBase 安装 的 讲解 视频 可 扫描 二 维 码 观看 。 
9.2.1 安装 前 的 准备 
(1) 在 官网 下 载 hbase-1.3.1-bin.tar.gz 安装 包 。 


(2) 复制 安装 包 到 software 目录 。 
(3) 解压 hbase-1.3.1-bin.targz 安装 包 ， 解 压 后 删除 原 包 。 


922 配置 文件 


(1) 进入 HBase 的 conf 目录 。 
(2) 修改 hbase-env.sh 文件 。 
插入 : 


export HBASE HOME=/home/hadoop/software/hbase-1.3.1 
export JAVA HOME=/home/hadoop/software/jdk1.8.0 131 
export HADOOP HOME-/home/hadoop/ software/hadoop-2. 6.5 
export HBASE LOG DIR-SHBASE HOME/1ogs 

export HBASE PID DIR-SHBASE HOME/pids 

export HBASE MANAGES ZK-false 


(3) 修改 hbase-site xml 文件 。 


插入 : 
<!-- 设 置 HRegionServers 共 享 目录 ,mycluster 是 在 Hadoop 中 设置 的 名 字 空 间 --> 
<property> 
<name>hbase. rootdir</name> 第 
<value>hdfs://mycluster/hbase</value> 9 
</property> 
* 
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(4) 配置 regionservers 文件 。 
插入 : 


(5) 新 建 backup-masters 文件 ， 并 配置 。 
插入 : 


Master002 


(6) 在 HBase 安装 目录 下 创建 tmp (缓存 文件 )、logs (日志 文件 )、pid (pid 文件 ) 的 
目录 。 


mkdir tmp logs pid 
(7) 将 HBase 配置 好 的 安装 文件 同步 到 集群 其 他 节点 。 


scp -r hbasexx Master002:~/software/ 
scp -r hbasexx Slave001:-/software/ 
scp -r hbasexx Slave002:-/software/ 
scp -r hbasexx Slave003:-/software/ 


(8) 在 集群 的 各 个 节点 上 配置 环境 变量 (在 root 用 户 下 操作 )。 
vi /etc/profile 
插入 : 


export HBASE HOME=/home/hadoop/software/hbaseXX 
export PATH-SPAT:SHBASE HOME/bin 


(9) fii profile 文件 生效 。 


source /etc/profile 


92.3 集群 启动 
(1) JAZ) Zookeeper 集群 (分别 在 Slave001、Slave002、Slave003 上 执行 )。 
./zkServer.sh start 


备注 :此 命令 分 别 在 Slave001, Slave002, Slave003 节点 上 启动 了 QuorumPeerMain. 
(2) 启 动 JournalNode 节点 (在 Zookeerper 节点 上 执行 : Slave001、Slave002、Slave003 ) 。 


hadoop-daemon.sh start journalnode 


备注 : 此 命令 分 别 在 Slave001, Slave002, Slave003 节点 上 启动 了 JournalNode. 
(3) 启动 HDFS (在 Msater001 上 执行 )。 


start-dfs.sh 


备注 :此 命令 分 别 在 Master001、Master002 节点 上 启动 了 NameNode fll DFSZKFailover- 
Controller。 分 别 在 Slave001、Slave002、Slave003 节点 上 启动 了 DataNode。 
(4) 启动 Yam (在 Master001 上 执行 )。 


start-yarn.sh 


备注 :此 命令 在 Master001 节点 上 启动 了 ResourceManager, 分 别 在 Slave001 , Slave002 , 9 
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Slave003 节点 上 启动 了 NodeManager. 
(5) 启动 HBase (在 Master001 执行 )。 


start-hbase.sh 


备注 : 此 命令 分 别 在 Master001, Master002 节点 启动 了 HMaster， 分 别 在 Slave001, 
Slave002、Slave003 节点 启动 了 HRegionServer. 

(6) 检验 。 

在 网 页 地 址 输入 “192.168.xx.xx:16010”， 如 果 能 进入 网 页 页 面 ， 说 明 配 置 成 功 。 


9.3 HBase Shell 


关于 HBase Shell 的 使 用 的 讲解 视频 可 扫描 二 维 码 观看 。 
9.3.1 DDL 操作 

DDL (Data Definition Language) 是 数据 库 模式 定义 语言 ， 用 于 描述 分 
布 式 数据 库 中 要 存储 的 现实 世界 实体 。 本 节 内 容 将 执行 关于 HBase 的 DDL 
操作 ， 包 括 数据 库 表 的 建立 、 查 看 所 有 表 、 查 表 结 构 、 删 除 列 族 、 删 除 表 等 操作 。 

创建 一 个 User 表 ， 其 结构 如 图 9.8 所 示 。 


主键 
列 族 
country city detailed address age SEX E~ 列 
zhangsan China | Chengdu 20 female 
wangqiang | China 25 male 
liuyu China | Chengdu 22 
zhanglun China 27 
zhoujin China | Chengdu 28 female 
yauyu China 19 female 
图 9.8 


(1) 创建 一 个 表 名 字 为 User， 并 插入 address、info 和 member id 三 个 列 族 。 
create 'User','address','info', 'member id', 
(2) 列 出 所 有 表 。 


hbase (main) :012:0>list 
TABLE 
member 


1 row(s) in 0.0160seconds 


(3) 显示 User 表 的 详细 信息 ， 查 询 结果 如 图 9.9 所 示 。 


hbase (main) :006:0>describe 'member' 
hbase (main) :006:0>describe 'user' 
DESCRIPTION ENABLED 
{NAME => 'user', FAMILIES => [{NAME=> 'address', BLOOMFILTER => 'NONE', REPLICATION SCOPE => '0', true 
VERSIONS => '3', COMPRESSION => 'NONE',TTL => '2147483647', BLOCKSIZE => '65536', IN MEMORY => ‘fa 
lse', BLOCKCACHE => 'true'}, (NAME =>'info', BLOOMFILTER => 'NONE', REPLICATION SCOPE => '0', VERSI 
ONS => '3', COMPRESSION => 'NONE', TTL=> '2147483647', BLOCKSIZE => '65536', IN MEMORY => 'false', 
BLOCKCACHE => 'true'}]} 
1 row(s) in 0.0230seconds 


图 99 


(4) 删除 一 个 列 族 : alter STAR). disable 〈 禁 用 表 )、enable (启用 表 )。 
之 前 已 经 建立 了 3 个 列 族 ， 但 是 member id 这 个 列 族 是 多 余 的 ， 所 以 要 将 其 删除 。 


hbase (main) :003:0>alter 'User', {NAME=>'member id',METHOD=>'delete'} 
ERROR: Table memberis enabled. Disable it first before altering. 


执行 上 面 删除 信息 时 会 报错 。 因 为 删除 列 族 时 必须 先 禁用 表 ， 才 能 执行 删除 操作 。 可 
以 用 disable 关键 字 标 上 一 张 表 ， 例 如 : 要 删除 User 表 ， 必 先 执行 disable "User 后 才能 执行 
alter 'User', {NAME=>'member_id', METHOD=>'delete'} 操 作 。 


hbase (main) :004:0>disable 'User' 

0 row(s) in 2.0390seconds 

hbase (main) :005:0>alter 'User', {NAME=>'member id',METHOD=>'delete'} 
0 row(s) in 0.0560seconds 


通过 describe 命令 查看 到 member_id 字段 已 不 存在 ， 表 示 member id 字段 已 被 删除 ， 
如 图 9.10 所 示 。 


hbase (main) :006:0>describe 'User' 


DESCRIPTION ENABLED 
{NAME => 'user', FAMILIES => [(NAME=> BLOOMFILTER => 'NONE', REPLICATION SCOPE => '0',false 
VERSIONS => '3', COMPRESSION => 'NONE E5 12147483647', BLOCKSIZE => '65536', IN MEMORY => 'fa 


lse', BLOCKCACHE => 'true'], (NAME -j'info',|BLOOMFILTER => 'NONE', REPLICATION SCOPE => '0', VERSI 
ONS => '3', COMPRESSION => 'NONE', TTL=> '2147483647', BLOCKSIZE => '65536', IN MEMORY => 'false', 
BLOCKCACHE => 'true')]] 


1 row(s) in 0.0230seconds 
图 9.10 


当 需 要 删除 的 列 族 被 删除 后 ， 要 把 User 表 重 新 启用 。 若 不 启用 User A. User 将 不 能 
正常 使 用 。 


hbase (main) :008:0> enable 'User' 
0 row(s) in 2.0420seconds 


判断 表 是 否 enable Fil disable. 第 
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true 

0 row(s) in 2.0420seconds 

hbase (main) :009:0> is disable 'User' 
false 


0 row(s) in 2.0420seconds 


(5) 可 以 使 用 drop 命令 删除 一 张 表 ， 需 要 两 步 : 先 把 表 禁 止 ， 再 执行 删除 命令 。 
禁止 User 表 : 


hbase (main) :029:0>disable 'User' 
0 row(s) in 2.0590seconds 


删除 User 表 : 


hbase (main) :030:0>drop 'User' 
0 row(s) in 1.1070seconds 


验证 表 是 否 存在 可 通过 list 列 出 所 有 的 表 。 但 如 果 表 比较 多 , 使 用 list 就 不 是 最 佳 方法 
了 ， 这 时 可 通过 exists 命令 直接 查看 该 表 是 否 存 在 。 


hbase (main) :031:0>exists 'User' 
Table User does exist 
0 row(s) in 1.1070seconds 


9.3.2 DML 操作 


DML 命令 是 数据 操作 语言 命令 , 包含 的 命令 非常 Pipa 用 于 数据 的 写 入 、 删除 、 修改 、 
查询 、 清 空 等 操作 。 本 节 将 详细 讲解 DML 操作 的 常用 命令 
1， 插 人 几 条 记录 


put 'User', 'zhangsan', 'address:country', 'China'; 
put 'User','zhangsan', 'address:city', 'Chengdu'; 
put 'User','zhangsan','info:age','20'; 

put 'User','zhangsan','info:sex','female'; 

put 'User', 'wangqiang', 'address:country', 'China'; 
put 'User', 'wangqiang', 'info:age','25'; 

put 'User','wangqiang','info:sex', 'male'; 

put 'User', 'liuyu', 'address:country', 'China'; 
put 'User','liuyu','address:city', 'Chengdu'; 

put 'User','liuyu', 'info:age','25', 

put 'User', 'zhanglun', 'address:country', 'China'; 
put 'User','zhanglun', 'info:age','27': 

put 'User','zhoujin','address:country', 'China'; 
put 'User','zhoujin','address:city', 'Chengdu'; 
put 'User','zhoujin','info:age', '28'; 

put 'User','zhoujin','info:sex','female'; 


put 'User','yauyu','address:country', 'China'; 


put 'User','yauyu','info:age','19'; 


put 'User','yauyu','info:sex','female'; 


2. 获取 一 条 数据 

获取 名 字 为 'zhoujin' 的 所 有 数据 : 

hbase (main) :001:0>get 'User','jiangxiaohui" 

COLUMN CELL 

address:country timestamp-1508804839610, value-China 
address:city timestamp-1508804837402, value-Chengdu 
info:age timestamp=1508804837475, value=28 
info:sex timestamp=1508804812019, value=female 


4 row(s) in 0.1400 seconds 
获取 名 字 为 zhoujin'， 并 且 列 族 为 info 的 所 有 数据 : 


hbase (main) :002:0>get 'User','zhoujin','info' 
info:age timestamp-1508804837475, value-28 
info:sex timestamp=1508804812019, value=female 
2 row(s) in 0.1400 seconds 


获取 名 字 为 zhoujin 的 年 龄 : 


hbase (main) :002:0>get 'User','zhoujin','info:age' 
COLUMN CELL 
info:age timestamp=1508804837475, value=28 


1 row(s) in 0.0320seconds 


3. 更 新 一 条 记录 
Fi zhoujin 的 年 龄 录入 错误 要 进行 修改 ， 但 在 HBase 中 没有 特定 的 修改 命令 ， 可 以 通 
过 新 插入 一 条 数据 的 方式 覆盖 以 前 的 数据 。 


hbase (main) :004:0>put 'User','zhoujin','info:age' ,'19' 


0 row(s) in 0.0210seconds 
4. 查看 所 有 的 年 龄 


hbase (main) :047:0> scan 'User', {COLUMNS=>'info:age'} 


ROW COLUMN+CELL 

zhangsan column=info:age, timestamp=1508804812019, value=20 

wangqiang column=info:age, timestamp=1508804812019, value=25 

liuyu column=info:age, timestamp=1508804812019, value=25 

zhanglun column=info:age, timestamp=1508804812019, value=27 

zhoujin column=info:age, timestamp=1508804837499, value=19 

yauyu column=info:age, timestamp=1508804812019, value=19 第 
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5. 通过 timestamp 来 获取 zhoujin 年 龄 修改 之 前 的 年 龄 


修改 前 的 年 龄 : 

hbase (main) :010:0>get 'User', 'zhoujin', {COLUMN=>'info:age', TIMESTAMP=> 
1508804837475} 

COLUMN CELL 

info:age timestamp=1508804837475, value=28 


1 row(s) in 0.0140seconds 


修改 后 的 年 龄 : 

hbase (main) :011:0>get 'User', 'zhoujin', {COLUMN=>'info:age', TIMESTAMP=> 
1508804837499} 

COLUMN CELL 

info:age timestamp=1508804837499, value=19 


1 row(s) in 0.0180seconds 


6. 全 表 扫 描 


hbase (main) 


ROW 
zhangsan 
zhangsan 
zhangsan 
zhangsan 
wangqiang 
wangqiang 
wangqiang 
liuyu 
liuyu 
liuyu 
zhanglun 
zhanglun 
zhoujin 
zhoujin 
zhoujin 
zhoujin 
yauyu 
yauyu 
yauyu 


:013:0>scan 'User' 


COLUMN+CELL 
column=address:country, timestamp=1321586240244, value=China 
column=address:city, timestamp=1321586239126, value=Chengdu 
column=info:age, timestamp=1321586239197, value=20 
column=info:sex, timestamp=1321586571843, value=male 
column=address:country, timestamp=1321586239015, value=China 
column=info:age, timestamp=1321586239071, value=25 
column=info:sex, timestamp=1321586248400, value=jieyang 
column=address:country, timestamp=1321586248316, value=China 
column=address:city, timestamp=1321586248355, value=Chengdu 
column=info:age, timestamp=1321586249564, value=25 
column=address:country, timestamp=1321586248202, value=China 
column=info:age, timestamp=1321586248277, value=27 
column=address:country, timestamp=1321586248241, value=China 
column=address:city, timestamp=1321586240244, value=Chengdu 
column=info:age, timestamp=1321586239126, value=28 
column=info:sex, timestamp=1321586248355, value=female 
column=address:country, timestamp=1321586239197, value=China 
column=info:age, timestamp=1321586571843, value=19 
column=info:sex, timestamp=1321586248400, value=female 19 


row(s) in 0.0570seconds 


7 删除 某 人 的 全 部 信息 
假如 zhoujin 离职 要 删除 所 有 信息 ， 可 以 使 用 deleteall 命令 : 


hbase (main) :001:0>deleteall 'User','zhoujin' 


0 row(s) in 0.3990seconds 
8. 查询 表 中 总 共有 多 少 行 


hbase (main) :019:0>count 'User' 
15 row(s) in 0.0160seconds 


9. 用 truncate 命令 清空 一 张 表 
上 述 提 到 清空 一 张 表 必须 经 过 两 步 : 先 禁用 表 ， 再 删除 表 。 现 在 使 用 truncate 命令 可 
直接 清空 一 张 表 。 观 察 执行 过 程 可 发 现 truncat 命令 同样 执行 禁用 表 和 删除 表 两 个 步骤 ， 


hbase (main) :035:0>truncate 'User' 
Truncating 'User'table (it may take a while): 
- Disabling table... 
- Dropping table... 
- Creating table... 
0 row(s) in 4.3430seconds 


94 “习题 与 思考 


1. 用 HBase 存储 社交 网 站 站 内 短信 信息 ， 要 求 记录 发 送 者 、 接 收 者 、 时 间 、 内 容 。 
有 关 查 询 包 括 发 送 者 和 接收 者 均 可 分 别 列 出 其 发 出 的 所 有 信息 列表 。 尝 试 进行 数据 建 模 创 
建 info_table 表 。 

2. 尝试 利用 HBase 将 表 9.1 中 的 数据 插入 到 info table 表 中 。 


表 9.1 

发 送 者 时 间 内 容 接收 者 
张 三 201801231450 HBase 是 一 款 很 好 用 的 框架 李 四 
李 四 201801231451 是 吗 ? 张 三 
张 三 201801231451 我 们 可 以 用 它 做 许多 结构 化 数据 库 做 不 到 的 事 。 李 四 
李 四 201801231452 R! 张 三 

= 201801231452 我 们 可 以 通过 面 列 的 方式 快速 统计 出 我 们 想 要 的 信 EP 

息 ， 这 是 Hive 和 HDFS 办 不 到 的 。 

张 三 201801231458 还 在 吗 ! ! ! 李 四 
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Sqoop 是 一 款 Hadoop 和 关系 型 数据 库 之 间 进 行 数据 导入 导出 的 工具 。 借 助 这 个 工具 ， 
可 通过 Sqoop 把 数据 从 数据 库 (比如 MySQL,Oracle) 导入 到 HDFS 中 ,也 可 把 数据 从 HDFS 
中 导出 到 关系 型 数据 库 中 。Sqoop 通过 Hadoop 的 MapReduce 导入 和 导出 ， 提 供 了 很 高 的 
并 行 性 能 以 及 良好 的 容错 性 。 

Sqoop 适合 以 下 人 和 群 使 用 : 

。 系统 和 应 用 开发 者 ; 

。 系统 管理 员 ; 

o 数据 库 管理 员 ; 

o 数据 分 析 师 ; 

。 数据 工程 师 。 

使 用 这 款 工具 所 必需 的 背景 如 下 : 

o 了解 基本 的 计算 机 知识 ; 

o 熟悉 类 似 Bash 的 命令 行 (Sqoop 基本 通过 命令 行进 行 操作 ); 

。 熟悉 关系 型 数据 库 系 统 的 管理 〈 数 据 需 从 数据 库 导 出 ); 

o 熟悉 Hadoop 基本 操作 (了 解 基本 的 HDFS 操作 和 MapReduce 的 原理 帮助 理解 Sqoop 

的 过 程 )。 

使 用 Sqoop 之 前 需要 先 安装 Hadoop， 文 档 基于 Linux 环境 。 若 是 在 Windows 环境 中 

使 用 ， 需 要 安装 cygwin， 物 理 机 配置 如 图 10.1 所 示 。 


图 10.1 显示 Sqoop 独立 于 Hadoop 大 数据 集群 存在 ， 因 此 要 从 HDFS 中 导入 、 导 出 数 
据 必须 依赖 Hadoop， 在 Sqoop 客户 中 安装 Hadoop 的 配置 文件 。Hive、HBase 同 理 。 若 与 
Hive、HBase 或 其 他 工具 进行 数据 交互 ， 需 在 Sqoop 物理 机 下 安装 其 配置 文件 。 关 系 型 数 
据 库 可 安装 在 Sqoop 物理 机 或 其 他 物理 机 下 ， 通 过 指定 特定 地 址 进行 数据 交互 。 


ria 


10.1 Sqoop 安装 


在 官网 http;/sqoop.apache.org 下 载 Sqoop 安装 文件 (示例 使 用 sqoop-1.4.6-cdh5.5.2 
版 本 )。 

(1) 解压 安装 文件 ，tar -zxf sqoop-1.4.6-cdh5.5.2.tar.gz。 

(2) 配置 环境 变量 : vi /etc/profile。 

添加 : 

#sqoop 

export SQOOP HOME=/home/hadoop/soft/sqoop-1.4.6-cdh5.5.2 

export PATH=$PATH:$SQOOP HOME/bin 


(3) 使 环境 变量 生效 : source /etc/profile。 
(4) 进入 /home/hadoop/softsqoop-1.4.6-cdh5.5.2/conf 目录 ， 复 制 sqoop-env-template.sh 
并 重 命 名 为 sqoop-env.sh. 


cp sqoop-env-template.sh sqoop-env.sh 
(5) 编辑 sqoop-env.sh 并 添加 相关 配置 。 

Vi sqoop-env.sh 

添加 : 


export HADOOP COMMON HOME-/home/hadoop/soft/hadoop-2.6.5 
export HADOOP MAPRED HOME-/home/hadoop/soft/hadoop-2. 6.5 


(6) 若 对 MySQL 数据 库 进 行 交 互 ， 需 将 MySQL 的 驱动 包 mysql-connector-java- 
5.1.41-bin.jar 上 传 至 Sqoop 安装 目录 的 lib 目录 下 。 若 对 Oracle 数据 库 进 行 交互 导入 Oracel 
驱动 包 即 可 。 

CT) 测试 输入 Sqoop Version。 如 果 出 现 以 下 内 容 说 明 安 装 成 功 ( 警 告 可 忽略 )。 


Warning: /home/hadoop/soft/sqoop-1.4.6-cdh5.5.2/../hbase does not exist! 
HBase imports will fail. 

Please set SHBASE HOME to the root of your HBase installation. 

Please set $ZOOKEEPER HOME to the root of your Zookeeper installation. 
17/08/31 17:06:03 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.5.2 
Sqoop 1.4.6-cdh5.5.2 


git commit id 8e266e052e423af592871e2dfe09d54c03f6a0e8 第 
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10.2 Sqoop 的 使 用 


10.2.1 MySQL 的 导入 导出 
1. fif] Sqoop 命令 
sqoop help 
2. 从 MySQL 导数 据 到 HDFS 


Sqoop import --connect jdbc:mysq1 ://192.168.153.205:3306/bunfly --username root 
--password 123456 --table houses number --fields-terminated-by '\t' -m 1 


解释 : 
sqoop sqoop 命 令 
import 表示 导入 


--connect jdbc:mysql://192.168.153.205:3306/bunfly 用 JDBC 方 式 ， 连 接 
MySQL 数 据 库 。 数 据 库 的 IP 是 192 .168 .153.205, 数 据 库 端 口 是 3306, 数据 库 名 是 punfly 


--username root 数据 库 账户 是 root 。 

--password 12345 数据 库 密码 是 123456。 

--table houses number 导出 数据 库 中 的 houses number 表 。 
--fields-terminated-by'\t' 文件 分 隔 格式 为 "'\t' 。 

-m 1 使 用 过 程 中 用 一 个 map 作 业 。 

--hive-import 把 数据 复制 到 Hive 空 间 中 。 若 不 用 这 个 选项 则 直接 复制 


到 HDFS 中 。 数 据 在 HDFS 的 /user/ 目 录 下 。 


YE: 如 果 要 导入 到 Hive 中 ，Hive 与 Sqoop 需 装 在 同一 台 服务 器 上 。 
3， 导 出 
sqoop export --connect jdbc:mysql://192.168.153.205:3306/bunfly?character 


Encoding=UTF-8 --username root -password 123456 --table houses number 
--export-dir '/user/hadoop/houses number/p*' --fields-terminated-by '\t' 


解释 ; 

--export-dir 'user/hadoop/houses number/p*' HDFS 中 的 地 址 。 
sqoop Sqoop 命 令 。 

export 表示 数据 从 Hive 复 制 到 MysoL 中 。 


--connect jdbc:mysql://ip:3306/bunfly 用 JDBC 连 接 MySs9L 数 据 库 ，IP 是 Mys9L 数 据 
所 在 的 TP 地址 ，MysQL 数 据 库 的 端口 号 为 3306， 数 据 库 名 为 punfly。 characterEncoding- 
UTF-8， 令 中 文 编码 集 为 0TF-8〔 设 置 中 文 编码 集 后 导入 到 MysQL 的 中 文 数据 不 会 出 现 乱码 )。 


--username root 连接 bunfly 数 据 库 的 用 户 名 。 
--password admin 连接 bunfly 数 据 库 的 密码 。 
--table mysq12 mysql12 是 punf1ly 数 据 库 的 表 ， 即 将 被 导入 的 表 名 称 。 


--export-dir '/user/root/warehouse/mysql1' Hive 中 被 导出 的 文件 目录 。 


--fields-terminated-by '\t' ##Hive 中 被 导出 的 文件 字段 的 分 隔 符 。 
?characterEncoding-UTF-8 中 文 编码 集 。 


DEE: 导出 的 数据 表 必 须 事先 存在 。 


10.2.2 Oracle 的 导入 导出 


从 Oracle 源 数据 库 导 入 数据 如 下 : 
sqoop import --connect jdbc:oracle:thin:@192.168.1.200:1521:ORCL --username mfkddd 
--password amwvke --tableI ZHIB YUANB -m 1 


详细 说 明 : 

sqoop Sqoop 命 令 。 

import 导入 命令 。 

--connect jdbc:oracle:thin@ RAW BAG PE Oracle, 采用 JDBC 方 法 导入 。 
192.168.1.200 Oracle 数 据 库 服 务 器 地 址 。 

1521 Oracle 数 据 库 的 端口 号 。 

ORCL Oracle RHE o 

--username mfkddd ORCI 数 据 库 的 用 户 名 。 
--password amwvke ORCL 数 据 库 的 密码 。 

--table I SHIB YUANB ORCL 数 据 库 下 的 I SHIB YUANB 表 。 
-m1 启动 的 map 数 量 ， 这 里 为 1 个 。 


示例 如 下 ， 指 定 文件 在 HDFS 中 的 存放 地 址 : 


sqoop import 

--connect jdbc:oracle:thin:@192.168.1.200:1521:0RCL 
--username mfkddd 

--password amwvke 

--table I ZHIB YUANB 

--m 1 


--target-dir /tmp/i zhib yuanb 


说 明 : --target-dir 指定 文件 在 HDFS 中 的 存放 地 址 。 若 要 新 指定 一 个 地 址 ， 必 须 在 该 
地 址 下 新 建 一 个 目录 存放 part-m-00000 文件 ， 否 则 报错 : xx already exists (xx 文件 已 经 
存在 )。 

验证 : hadoop fs -cat /tmp/i_zhib yuanb/part* 出 现 导入 内 容 ， 导 入 成 功 。 

表 数 据 导入 子 集 通 过 where 子 句 完成 ， 相 当 于 SQL 中 的 where 查询 条 件 。 


sqoop import 
--connect jdbc:oracle:thin:@192.168.1.200:1521:0RCL 
--username mfkddd 


--password amwvke 


--table O ORG 第 
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--where "org type="03"" 
--target-dir /tmp/o org 2 


说 明 : 

--where "org type-'03'" 

--where 条 件 查询 关键 字 。 

org tpye 关系 型 数据 库 中 的 字段 名 称 。 
"o3" 需要 过 滤 的 内 容 。 


从 HDFS 导出 数据 到 Oracle 数据 库 ， 示 例如 下 : 


sqoop export --connect jdbc:oracle:thin:@192.168.1.200:1521:0RCL 
--username root -password 123456 --table houses number --export-dir 
'/user/hadoop/houses number/p*' --fields-terminated-by '\t' 
解释 : 
sqoop Sqoop 命 令 
export 导出 
--connect jdbc:oracle:thin:@192.168.1.200:1521:0RCL Oracle 的 url 地 址 
--username root Oracle 数 据 库 名 
--password admin Oracle 数据 库 密码 
--table houses number Oracle 数 据 库 表 名 
--export-dir '/user/hadoop/houses number/p*' ”HDFS 的 文件 地 址 
--fields-terminated-by '\t' 导出 的 文件 字段 分 隔 符 


MER: 导出 的 数据 表 必 须 是 事先 存在 的 。 


10.3 “习题 与 思 


1, 尝试 配置 Sqoop LH, A Hive 中 导出 数据 到 MySQL 中 。 
2. 尝试 在 HDFS 中 导出 中 文 数据 到 MySQL 中 。 


第 11 章 Flume 日 志 收 集 


Flume 是 Cloudera 提供 的 高 可 用 、 高 可 靠 、 分 布 式 ， 进 行 海量 日 志 采 集 、 聚 合 和 传输 
AB. Flume 支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ， 用 于 收集 数据 。 同 时 ，Flume 可 对 
数据 进行 简单 处 理 ， 并 写 到 各 种 数据 接收 方 ( 可 定制 )。 

Flume 是 由 Cloudera 软件 公司 推出 的 可 分 布 式 日 志 收 集 系 统 。2009 年 被 Apache 软件 
基金 会 捐赠 ， 成 为 Hadoop 相关 组 件 之 一 。 随 着 Flume 的 不 断 完善 ， 特 别 是 Flume-ng 升级 
版 本 的 推出 以 及 内 部 组 件 的 不 断 丰富 ， 提 高 了 用 户 在 开发 过 程 中 的 便利 性 ， 现 已 成 为 
Apache Top 项 目 之 一 。 

Flume 的 运行 环境 为 必须 安装 JDK 6.0 以 上 版 本 。Flume 目前 只 有 Linux 系统 的 启动 
脚本 ， 没 有 Windows 环境 的 启动 脚本 。 

Elume 具有 高 可 用 、 分 布 式 配置 工具 ， 其 设计 原理 基于 将 如 日 志 数据 的 数据 流 从 各 
种 网 站 服务 器 上 汇集 起 来 存储 到 HDFS、HBase 等 集中 存储 器 中 ，Flume 的 结构 如 图 11.1 
所 示 。 


社交 网 站 Web 服务 器 去 
api AN 2 


图 11.1 


Flume 可 以 在 电子 商务 网 站 做 精准 营销 。 例 如 ， 通 过 消费 用 户 的 访问 点 以 及 特定 的 节 
点 区 域 来 分 析 消 费 者 的 行为 或 者 购买 意图 ， 便 可 更 快 地 推送 消费 者 想 获取 的 信息 。 要 实现 
这 一 点 ， 需 将 获取 的 访问 页 面 以 及 单 击 的 产品 数据 等 日 志 数据 信息 收集 起 来 ， 并 移交 
Hadoop 平台 进行 分 析 。 京 东 “ 还 没有 得 够 ”模块 就 是 使 用 Flume 和 Hadoop 技术 。 日 志 收 
集 工 具有 很 多 ， 除 了 Flume， 还 有 Facebook 的 Scribe、 淘 宝 的 Time Tunnel 等 。 
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Flume 的 优点 如 下 : 

OD Flume 可 将 应 用 产生 的 数据 存储 到 任何 集中 存储 器 中 ， 如 HDFS。 

(2) 当 收 集 数据 的 速度 超过 写 入 数据 的 速度 ， 即 收集 信息 过 到 峰值 时 ， 收 集 的 信息 非 
常 多 ， 甚 至 超过 系统 写 入 数据 的 能 力 。 此 时 Flume 会 在 数据 生产 者 和 数据 收容 器 间 做 出 调 
整 ， 保 证 其 能 够 在 两 者 之 间 提 供 一 平稳 的 数据 。 

(3) Flume 的 管道 基于 事务 ， 以 保证 数据 传送 和 接收 的 一 致 性 。 

(4) Flume 可 靠 性 、 容 错 性 高 ， 可 升级 ， 易 管理 ， 可 定制 。 

(5) 可 被 水 平 扩展 。 


11.1 体系 架构 


11.1.1 Flume 内 部 结构 


如 图 11.2 所 示 ， 数 据 发 生 器 产生 的 数据 被 单个 运行 在 数据 发 生 器 所 在 服务 器 上 的 
Agent 收集 ， 之 后 数据 收容 器 从 各 个 Agent 上 汇集 数据 ， 并 将 采集 到 的 数据 存 入 HDFS. 


11.1.2 Flume 事件 


Flume 的 数据 流 由 基本 数据 单位 事件 (Event) 贯穿 始终 ， 并 携带 日 志 数据 〈 字 节 数 组 
形式 ) 和 头 信 息 。 这 些 Event 由 Agent 外 部 的 Source 生成 ， 当 Source 捕获 事件 后 会 进行 特 
定 的 格式 化 ， 然 后 Source 会 把 事件 推 入 (单个 或 多 个 ) Channel 中 。 将 Channel 看 作 缓冲 
区 ， 它 保存 事件 直到 Sink 将 其 处 理 完 。Sink 负责 持久 化 日 志 或 把 事件 推 向 另 一 个 Source。 

Flume 以 Agent 为 最 小 的 独立 运行 单位 ,一 个 Agent 就 是 一 个 JVM。 单 Agent 由 Source、 
Sink 和 Channel 三 大 组 件 构成 ， 数 据 模型 如 图 11.3 所 示 。 

Agent: 使 用 JVM 运行 Flume 时 ， 每 台 机 器 运行 一 个 Agent。 但 在 一 个 Agent 中 包含 
多 个 Source 和 Sinks. 

Source: 从 客户 端 收集 数据 ， 并 传递 给 Channel。 


图 11.3 


Channel: 缓冲 区 ， 将 Source 传输 的 数据 暂时 存放 。 

Sink: 从 Channel 收集 数据 ， 并 写 入 到 指定 地 址 。 

Event: 日 志文 件 、avro 对 象 等 源 文 件 。 

假如 Agent 是 一 个 池子 ， 一 端 是 进 水 口 ， 另 一 端 是 出 水 口 。 进 水 口 可 配置 各 种 水 管 ， 
从 多 个 地 方 进 水 ;出 水 口 也 配置 各 种 水 管 ， 但 只 有 一 个 地 方 出 水 ， 指 定 水 排出 的 地 方 。 通 
过 进 水 口 将 水 输入 到 池 里 ， 然 后 出 水 口 将 池 里 的 水 抽 到 指定 的 地 方 。 其 中 的 水 就 是 Event, 
它 包 含 了 需要 的 源 文件 。 即 由 Source 将 源 文件 收集 起 来 并 放 到 Channel (缓冲 池 ) 中 ， 而 
Sink 将 收集 到 的 数据 最 终 落 到 实处 。 


11.2 Flume 的 特点 


如 图 11.4 所 示 ，Flume 有 两 种 角色 的 节点 : 代理 节点 (Agent)、 收 集 节点 (Collector). 
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Agent 从 各 个 数据 源 收集 日 志 数据 ， 并 集中 到 Collector， 然 后 由 收集 节点 汇总 存 入 
HDFS。 在 Flume 中 ， 最 重要 的 抽象 是 dataflow (Ai). dataflow 描述 了 数据 从 产生 、 
传输 、 处 理 到 写 入 目标 的 一 条 路 径 .Agent 数 据 流 配置 即 把 数据 发 送 到 得 到 数据 的 Collector。 
Collector 接收 Agent 发 过 来 的 数据 ， 并 把 数据 发 送 到 指定 的 目标 机 器 。 

Flume 框架 在 jar 包 上 依赖 Hadoop 和 Zookeeper， 并 不 要 求 Flume 启动 时 必须 启动 第 
Hadoop 和 Zookeeper 服务 。 


Flume HERE 
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11.3 Flume 集群 搭建 


(1) Flume 官方 下 载 地 址 : http://www.apache.org/dist/flume/1.6.0/。 其 中 apache-flume- 
1.6.0-bin.tar.gz 版 本 是 较 稳 定 的 版 本 。 

(2) 通过 hadoop 用 户 将 apache-flume-1.6.0-bin.tar.gz 安装 包 通 过 Xftp 工具 上 传 到 需要 
安装 的 节点 的 ~/software 目录 下 (以 Slave001 节点 为 例 )。 

(3) 解压 apache-flume-1.6.0-bin.tar.gz 安装 包 。 


hadoop@Slave001 ~]$ cd software 

hadoop@Slave001 software]$ 1s 

hadoop-2.6.5 jdk1.8.0 131 zookeeper-3.4.10 apache-flume-1.6.0-bin.tar.gz 
hadoop@Slave001 software]$ tar -zxf apache-flume-1.6.0-bin.tar.gz 
hadoop@Slave001 software]$ 1s 

hadoop-2.6.5 jdk1.8.0 131 zookeeper-3.4.10 apache-flume-1.6.0-bin.tar.gz 
apache-flume-1.6.0-bin 

hadoop@Slave001 software]$ cd apache-flume-1.6.0-bin 


hadoop@S1ave001 apache-flume-1.6.0-bin]$ pwd 
/home/hadoop/software/apache-flume-1.6.0-bin  ##ifil 


(4) 修改 配置 文件 。 


[hadoop@Slave001 apache-flume-1.6.0-bin]$ cd conf 
[hadoop@Slave001 conf]$ cp flume-env.sh.template flume-env.sh 


[hadoop@Slave001 conf]$ vi flume-env.sh 

改写 : 

export JAVA HOME-/home/hadoop/software/jdk1.8.0 131 # 自 己 的 路 径 
(5) 配置 Flume 环境 变量 。 

[hadoop@Slave001 conf]$ su -1 root 

密码 : 

[root@Slave001 ~]# vi /etc/profile 

插入 : 


#flume 

export FLUME HOME-/home/hadoop/software/apache-flume-1.6.0-bin 
export FLUME CONF DIR=$FLUME HOME /conf 

export PATH-SPATH:SEFLUME HOME /bin 

[root@Slave001 ~]# reboot 


说 明 : FLUME HOME 路 径 是 上 面 第 (3) 步 中 的 复制 路 径 ， 在 文本 编辑 状态 可 通过 
鼠标 快捷 粘贴 。 

配置 全 局 环境 变量 后 使 用 source /etc/profile 命令 只 针对 root 用 户 生 效 ， 若 对 全 部 用 户 
都 生效 需 使 用 reboot 命令 重启 虚拟 机 。 

(6) 验证 安装 是 否 成 功 。 

出 现 Flume 版 本 号 等 信息 说 明 安装 成 功 ， 否 则 安装 失败 。 


[hadoop@Slave001 ~]$ flume-ng version 

Flume 1.6.0 

Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git 
Revision: 2561a23240a71ba20bf288c7c2cda88f443c2080 

Compiled by hshreedharan on Mon May 11 11:15:44 PDT 2015 

From source with checksum b29e416802ce9ece3269d34233baf43f 


(7) 分 发 到 各 节点 。 
通过 scp 命令 将 Flume 配置 和 环境 变量 配置 发 送 到 其 他 节点 。 为 了 教学 方便 ， 本 书 以 
Slave001、Slave002、Slave003 三 台 节点 作为 Flume 集群 。 


[hadoop@Slave001 ~]$ scp -r -/software/apache-flume-1.6.0-bin/ Slave002: 
~/software/ 

[hadoop@Slave001 ~]$ scp -r -/software/apache-flume-1.6.0-bin/ Slave003: 
~/software/ 

[hadoop@Slave001 ~]$ su -1 root 

{hadoop@Slave001 ~]$ scp ~/etc/profile Slave002:/etc 

{hadoop@Slave001 ~]$ scp ~/etc/profile Slave003:/etc 


分 别 打开 Slave002, Slave003 节点 终端 ， 进 入 到 root 用 户 ， 使 用 reboot 命令 重启 虚拟 
机 。 重 启 后 分 别 登录 Slave002、Slave003 节点 ， 使 用 flume-ng version 命令 验证 Flume 安装 
是 否 成 功 。 


11.4 Flume E: fij 


1141 实例 1: 实时 测试 客户 端 传输 的 数据 


在 Slave001 节点 /home/hadoop 目录 创建 netcat.conf 文件 ， 将 下 列 内 容 插入 到 netcat. 
conf, 启动 netcat.conf 程序 用 于 监听 某 个 端口 , 并 捕获 传输 的 数据 , 在 其 他 节点 (是 Slave002 
节点 ) 使 用 Telnet 协议 发 送 数据 。 整 个 过 程 如 同 使 用 QQ 聊天 软件 向 另 一 个 客户 端 发 送 消 
息 ， 但 对 方 仅 接收 不 能 回复 。 

(1) 在 Slave001 中 创建 netcat.conf 文件 。Flume 可 通过 Avro 监听 端口 并 捕获 传输 的 
数据 。 具体 示例 如 下 : 


#source+channels+sinks 名 字 定 义 为 agent 第 
agent.sources = segGenSrc 11 
* 
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agent.channels = memoryChannel 


agent.sinks = loggerSink 


# 描 述 source 
agent.sources.seqGenSrc.type = netcat 
agent.sources.seqGenSrc.bind = Slave001 
agent.sources.seqGenSrc.port — 44444 
sink 

agent.sinks.loggerSink.type = logger 
Hop 


agent.channels.memoryChannel.type = memory 
agent.channels.memoryChannel.capacity = 1000 
agent.channels.memoryChannel.transactionCapacity - 100 
# 将 source 和 sink 绑 定 到 channel (缓冲 池 ) 
agent.sources.seqGenSrc.channels = memoryChannel 


agent.sinks.loggerSink.channel = memoryChannel 
(2) 启动 netcat.conf. 


[hadoop@Slave001 ~] flume-ng agent -n agent -c conf -f /home/hadoop/ 
netcat.conf 

flume-ng agent: 启动 Flume 的 命令 。 

-n agent: Agent 的 名 字 ， 与 netcat .conf 配 置 文件 的 Agent 名 字 一 致 。 

-c conf: 传输 配置 文件 。 

-f /home/hadoop/netcat.conf: 文件 路 径 。 


(3) 在 Slave002 节点 中 传输 数据 。 
在 Slave002 中 使 用 Telnet 远程 协议 工具 传输 数据 ， 使 用 Telnet 工具 须 先 安装 Telnet。 


hadoop@Slave002 ~]$ su -1 root 


密码 : 

root@Slave002 ~]# yum list | grep telnet 
telnet.x86 64 1:0.17-48.e16 @base 
telnet-server.x86 64 1:0.17-48.e16 @base 


rootéSlave002 ~]# yum install -y telnet.x86 64 
rootéSlave002 -]# yum install -y telnet-server.x86 64 
root@Slave002 -]# su -1 hadoop 

hadoop@Slave002 -]S telnet Slave001 44444 


11.4.2 £612: 监控 本 地 文件 夫 并 写 入 到 HDFS 中 
监控 本 地 文件 夹 ， 当 文件 夹 的 文件 改变 时 ， 把 改变 内 容 加 载 到 指定 的 HDFS 文件 夹 。 


[hadoop@Slave001 ~]$ cd -/software/apache-flume-1.6.0-bin/example/ 
[hadoop@Slave001 example]$ vi monitor.conf 


插入 : 


#agent name 

agent .sources=sourcel 

agent .sinks=sinkl 

agent.channels-channell 

#Spooling Directory 

#set sourcel 

agent.sources.sourcel.type-spooldir 
agent.sources.sourcel.spoolDir-/home/hadoop/tmpfile/logdfs 
agent.sources.sourcel.channels-channell 
agent.sources.sourcel.fileHeader - false 
agent.sources.sourcel.interceptors - il 
agent.sources.sourcel.interceptors.il.type = timestamp 


agent.sources.sourcel.deletePolicy - immediate 


#set sinkl 

agent.sinks.sinkl.type-hdfs 

agent.sinks.sinkl.hdfs.path-/input 
agent.sinks.sinkl.hdfs.fileType-DataStream 
agent.sinks.sinkl.hdfs.writeFormat-TEXT 
agent.sinks.sinkl.hdfs.rollInterval-1 
agent.sinks.sinkl.channel-channell 
agent.sinks.sinkl.hdfs.filePrefix-$Y-*m-$d 

#set channell 

agent.channels.channell.type-file 
agent.channels.channell.checkpointDir-/home/hadoop/tmpfile/logdfstmp/point 
agent.channels.channell.dataDirs-/home/hadoop/tmpfile/logdfstmp 


[hadoop@Slave001 example]$ mkdir /home/hadoop/tmpfile/logdfs 


[hadoopéSlave001 example]$ flume-ng agent -n agent -c conf -f ~/software/ 


apache-flume-1.6.0-bin/example/monitor.conf 


验证 : 

(1) 当 monitorcon 程序 启动 后 ， 可 打开 另 一 终端 ， 进 入 /home/hadoop/tmpfile/logdfs H 
录 。 在 该 目录 下 通过 vi 工具 创建 一 个 新 的 文件 夹 ， 任 意 写 入 一 些 内 容 后 保存 退出 。 

QD 在 大 数据 集群 任意 一 台 节 点 上 输入 下 面 语句 查询 导入 结果 。 若 结果 与 之 前 相同 说 | 第 
明 监 控 成 功 。 11 
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[hadoop@Slave002 ~]$ hadoop fs -cat /input/* 


11.5 “习题 与 思 


1. BOR Flume 的 功能 、 工 作 流程 

2. 尝试 从 本 地 文件 收集 日 志 传送 到 HDFS 中 。 

3. 尝试 从 Slave001 节点 收集 日 志 传送 到 Slave002 节点 ， 再 由 Slave002 节点 收集 
Slave001 传送 的 日 志 ， 并 将 其 传送 至 HDFS 。 


第 3 篇 Spark 技术 


第 12 章 Spark 概 述 


Spark 是 基于 内 存 的 分 布 式 、 和 迭代 型 计算 框架 ， 可 以 基于 内 存 也 可 以 基于 磁盘 做 迭代 
计算 。 根 据 Apache Spark 开源 组 织 官方 描述 ，Spark 基于 磁盘 做 迭代 计算 比 基 于 磁盘 迭代 
的 MapReduce 框架 快 10 余 倍 ;而 基于 内 存 的 迭代 计算 则 比 MapReduce #544 100 倍 以 上 。 
同时 由 于 Spark 是 迭代 式 的 计算 框架 ， 它 更 适合 于 将 多 步骤 作业 通过 应 用 层面 向 过 程 的 流 
水 化 操作 ,将 其 转换 成 底层 的 多 个 作业 串联 操作 。 在 第 一 代 计 算 框架 MapReduce 中 需要 程 
序 员 手 动 分 解 多 个 步骤 操作 到 各 个 作业 中 去 , 因此 如 果 基 于 MapReduce 来 编写 数据 分 析 应 
用 会 耗费 大 量 代 码 。 但 如 果 基 于 Spark 的 API 来 构建 应 用 会 非常 快速 和 高 效 。Spark 生态 


圈 如 图 12.1 所 示 。 
| Spark MLlib GraphX 
Streaming Machine learning (graph) 


Spark 


| noes Amazon S3，Hypertable，HBase 等 


图 12.1 


12.1 Spark 框架 原理 


Spark 是 基于 内 存 的 一 种 迭代 式 计算 框架 ， 所 处 理 的 数据 可 以 来 自 于 任何 一 种 存储 介 
质 ， 如 关系 数据 库 、 本 地 文件 系统 、 分 布 式 存储 、 网 络 Socket 字 节 流 等 。Spark 从 数据 源 
存储 介质 中 装载 需要 处 理 的 数据 至 内 存 , 并 将 这 些 数据 集 抽 象 为 RDD( 弹 性 分 布 式 数据 集 ) 
对 象 。 然 后 采用 一 系列 算 子 (封装 计算 逻辑 的 APD 处 理 RDD, 并 将 处 理 好 的 结果 以 RDD 
的 形式 输出 到 内 存 ， 或 以 数据 流 的 方式 持久 化 写 入 到 其 他 存储 介质 中 。 

Spark 框架 拥有 一 系列 用 于 迭代 计算 的 算 子 库 ， 通 过 调用 算 子 可 完成 数据 集 在 内 存 中 
的 实时 计算 和 处 理 。Spark 提交 一 个 应 用 之 后 会 启动 一 个 Driver 进程 ， 该 Driver 进程 负责 
与 Spark 集群 中 Master 节点 进行 数据 交互 , 同时 跟踪 和 收集 Master 节点 反馈 的 数据 处 理 情 
Yi. Spark 集群 中 Master 节点 接收 到 Driver 进程 申请 应 用 的 请 求 后 ， 会 基于 Spark 框架 内 
部 机 制 分 析 应 用 ， 并 将 提交 的 应 用 拆 解 为 可 以 直接 执行 的 各 个 作业 。 这 些 作业 之 间 根 据 设 
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计 的 业务 逻辑 流程 并 发 执行 或 串 行 执行 ， 均 由 Spark 的 分 析 器 来 决策 。 每 个 作业 的 内 部 细 
分 为 各 个 任务 ， 每 个 任务 对 应 一 个 具体 的 执行 进程 。Spark 根据 分 析 器 拆 分 的 作业 以 及 任 
务 的 类 型 和 数量 将 其 分 配 到 各 个 工作 节点 ， 每 个 工作 节点 都 有 一 个 Worker 进程 来 响应 
Master 节点 的 调度 处 理 。 分 配 的 具体 任务 都 由 Spark 在 各 个 工作 节点 上 生成 的 Executor 进 
程 来 予以 处 理 。 在 任务 调度 过 程 中 ， 从 一 个 任务 到 另 一 个 任务 的 过 渡 或 在 一 个 Executor 3t 
程 内 部 完成 数据 转移 、 或 在 不 同 的 Executor 进程 之 间 完 成 数据 转移 。 如 果 数 据 在 不 同 的 
Executor 之 间 完 成 数据 转移 则 称 为 Stage〈 从 代步 骤 )。 计 算 过 程 中 数据 在 不 同 的 Stage 之 
间 迁 移 和 交互 ， 涉 及 数据 在 处 理 进程 之 间 的 重新 分 配 过程 。 通 常数 据 的 重新 分 配 会 产生 网 
络 VO 操作 ， 其 将 为 分 布 式 计算 带 来 附加 的 集群 负载 。 这 是 所 有 分 布 式 计算 均 具 备 的 共同 
该 特征 ， 同 时 也 是 分 布 式 计算 仅 适用 于 处 理 大 数据 集 的 一 个 根源 。 

每 个 节点 上 的 任务 操作 结束 的 计算 结果 均 反 馈 至 Worker 进程 。Worker 进程 负责 将 任 
务 计算 完成 之 后 的 状态 汇报 给 Master 进程 ，Master 进程 负责 数据 输入 、 计 算 、 调 度 和 数据 
输出 的 整个 迭代 过 程 。 每 个 任务 结束 之 后 Master 进程 会 将 其 注销 。 同 时 根据 输入 数据 集 的 
分 配 启动 新 的 任务 继续 处 理 剩 余 的 数据 。 待 指定 的 数据 集 全 部 处 理 结束 完毕 ，Master 节点 
将 数据 集 的 处 理 结果 反馈 给 Spark 客户 端 ， 同 时 关闭 与 Spark 客户 端的 连接 。 


12.2 Spark 大 数据 处 理 


Spark 是 基于 内 存 迭 代 的 实时 分 析 计 算 框架 ， 其 优势 在 于 可 基于 内 存 做 实时 计算 和 分 
析 处 理 。 处 理 的 数据 可 来 自 于 任何 一 种 存储 介质 。 从 数据 源 收集 的 数据 优先 被 装载 到 内 存 
中 实现 迭代 处 理 ， 内 存 剩余 空间 不 足 时 将 启用 磁盘 缓冲 技术 实现 磁盘 迭代 分 析 处 理 。 

Spark 可 以 通过 JDBC 协议 读 取 SqlServer, MySQL, Oracle, DB2 等 关系 数据 库 中 的 
数据 。 由 于 关系 数据 库 处 理 的 数据 集 通常 较 小 ， 所 以 Spark 可 以 在 内 存 中 完成 这 些 数 据 的 
帮 代 计算 和 分 析 处 理 。 若 需 计 算 的 数据 集 全 部 可 在 内 存 中 完成 迭代 ， 则 分 析 效 率 是 相当 高 
的 。 计 算 分 析 结 束 之 后 的 数据 也 可 输出 到 关系 数据 库 ， 以 存储 起 来 供 前 端 系统 使 用 。 若 前 
端 系统 对 检索 性 能 和 效率 要 求 高 可 将 其 分 析 结 果 输 出 到 分 布 式 缓存 。 

Spark 可 通过 分 布 式 传输 协议 读 取 HDFS、S3、Swift 等 分 布 式 存储 系统 的 数据 。 由 于 
分 布 式 存储 系统 中 数据 集 非 常 庞大 ， 因 此 Spark 处 理 这 类 数据 时 会 优先 将 需要 处 理 的 数据 
集 装 载 到 内 存 ， 基 于 内 存 实 现 欠 代 处 理 。 当 和 迭代 的 数据 集 超过 Spark 的 分 布 式 缓存 时 ， 会 
将 数据 溢出 到 磁盘 进行 迭代 处 理 。 处 理 结束 的 数据 仍 可 通过 分 布 式 协议 写 回 分 布 式 存储 系 
统 中 用 于 二 次 分 析 的 输入 ， 若 处 理 之 后 的 结果 数据 集 非常 小 且 需 要 用 于 前 端 系 统 ， 可 将 其 
写 入 关系 数据 库 或 分 布 式 缓存 中 去 。 

除 静 态 数据 集 的 分 析 和 处 理 之 外 ，Spark 还 可 使 用 生态 圈 中 的 Streaming 子 系统 来 完成 
实时 流 的 分 析 和 处 理 。 在 这 种 生产 场景 下 其 数据 源 自 于 网 络 Socket 通道 、 本 地 Event jii. 
Flume 推送 、KafKa 中 间 件 等 ，Spark 与 这 些 数据 源 组 件 进行 交互 时 需 充分 考虑 数据 在 VO 
通道 上 的 传输 过 程 ， 否 则 易 在 VO 通道 的 一 端 产 生 OOM ( 译 为 OutOfMemery， 泛 指 发 生 
内 存 汇 漏 ) 异常 。Spark 事件 流 的 分 析 和 处 理 广泛 应 用 于 电 商 领域 推荐 系统 。 在 事件 流 的 
处 理 过 程 中 ， 其 处 理 的 流 化 数据 集 是 业务 数据 集 的 一 个 片段 ， 这 种 数据 集 被 称 为 离散 数据 
集 。 离 散 数据 集 的 输入 和 输出 几乎 实时 进行 ， 同 时 几乎 都 来 自 于 前 端 系统 的 在 线 数据 集 。 


12.3 RDD 数据 集 


RDD(Resilient Distributed Datasets ) 被 译 为 弹性 分 布 式 数据 集 , 它 是 Spark 运 行 时 CSpark 
Runtime) 的 内 核实 现 。 弹 性 分 布 式 数据 集 具 备 如 下 特征 。 

1. 迭代 模式 的 自动 切换 

处 理 的 数据 优先 在 内 存 中 进行 迭代 ， 内 存 剩余 空间 不 足 时 再 将 溢出 部 分 数据 缓冲 到 磁 
盘 进 行 迭 代 处 理 。 

2. 执行 步骤 的 可 恢复 性 

当 一 个 应 用 存在 多 个 操作 步骤 时 ， 若 在 作业 执行 过 程 中 某 个 步骤 出 错 ， 只 需 在 出 错 步 
又 的 前 一 步骤 后 重新 执行 进行 恢复 ， 而 无 须 从 第 一 个 步骤 开始 恢复 。 

3. 故障 作业 的 高 可 靠 性 

若 某 个 作业 出 错 或 失败 ， 则 会 自动 进行 特定 次 数 〈 默 认 3 次 ) 的 重 试 。 该 重 试 包括 作 
业 本 身 的 重 试 和 基于 作业 操作 底层 节点 任务 计算 失败 的 重 试 ( 默 认 4 次)。 

4.， 政 障 数 据 的 高 度 容错 

若 某 个 作业 失败 导致 数据 计算 结果 不 完整 ， 则 作业 会 重新 提交 或 重 试 ， 这 时 仅 收 集 计 
算 失 败 的 数据 分 片 进行 重新 计算 ， 这 意味 着 Spark 可 从 细 粒 度 上 控制 容错 计算 的 数据 量 。 


12.4 Spark 子 系统 


Spark 生态 圈 中 包含 诸多 子 系统 , 这 些 子 系统 是 基于 Spark 核心 API 的 应 用 框架 。 Spark 
核心 API 以 Spark RDD 数据 集 为 基础 , 同时 Spark RDD 又 是 Spark 生态 圈 中 其 他 子 系统 予 
以 扩展 的 基础 架构 。Spark 生态 圈 中 有 如 下 常用 子 系统 。 

1. Spark SQL 

该 子 系统 可 将 传递 给 Spark 内 核 的 类 SQL 语句 翻译 成 基于 Scala API 的 Spark 代码 ， 
然后 将 其 包装 成 Spark 应 用 提交 给 Spark 集群 处 理 ， 其 数据 源 可 以 来 自 于 数据 库 、 文 件 系 
统 等 各 种 存储 介质 ， 且 以 指定 的 数据 格式 从 这 些 存 储 系统 中 提取 所 需 处 理 的 数据 。 

2. Spark Streaming 

该 套子 系统 可 基于 离散 数据 流 完成 实时 分 析 处 理 ， 处 理 的 数据 通常 来 自 本 地 事件 流 、 
Socket 网 络 数据 流 、KafKa 中 间 件 的 缓冲 数据 流 等 。 分 析 数 据 的 特征 是 准 实时 计算 和 处 理 ， 
数据 的 输出 端 通常 指向 业务 平台 的 前 端 系统 。 

3. Spark MLlib 

该 套子 系统 为 Spark 框架 提供 机 器 学 习 算 法 库 。 机 器 学 习俗 称 人 工 智 能 ， 它 是 指 将 一 
系列 的 样本 输入 数据 ， 通 过 维度 设计 、 数 据 回 归 、 曲 线 拟 合 等 方式 得 出 一 套 经 验 公 式 或 数 
理 结 论 ， 然 后 将 其 应 用 于 未 来 某 个 时 空 点 产生 的 数据 维度 并 预测 可 能 发 生 的 业务 数据 。 
MLlib 机 器 学 习 算 法 库 基 于 Spark 平台 下 的 内 存 迭 代 方 式 进行 数据 分 析 。 

4. 其 他 子 系统 


除了 以 上 常用 的 子 系统 外 ， 还 有 其 他 子 系统 ， 如 基于 图 计算 的 Spark GraphX、 基 于 可 
视 化 表现 的 Spark R 等 ， 读 者 可 自行 参考 相关 书籍 。 ba 
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Scala 是 一 种 基于 JVM (Java 虚拟 机 ) 的 跨 平 台 编程 语言 ，Scala 编译 器 可 将 Scala Jii 
码 编译 成 符合 JVM 虚拟 机 规范 的 中 间 字 节 码 文件 , 在 JVM 平台 上 解释 和 运行 ,Scala 语言 
是 对 Java 语言 的 一 种 补充 和 扩展 ， 其 API 可 无 颖 兼容 Java 的 API， 可 认为 Java 的 API 是 
其 Scala API 的 子 集 ，Scala 是 完全 并 彻底 面向 对 象 的 一 种 编程 语言 。 编 程 模式 提供 面向 过 
程 化 和 面向 对 象 化 两 种 编码 设计 模式 ， 运 行 模式 则 提供 编译 和 解释 两 种 操作 模式 。 


13.1 Scala 语法 基础 
13.1.1 变量、 常量 与 赋值 


1， 声 明 变 量 
变量 的 值 可 以 被 重新 指定 。 类 型 可 依赖 于 值 自动 推断 。 


var VariableName[:DataType] [=Initial Value] 
示例 如 下 : 


var ab:Int=30 

ab: Int = 30 

ab=50 提示 : 此 处 ab 变量 被 重新 赋值 
ab: Int = 50 

var ab=30 


ab: Int = 30 提示 : 此 处 变量 ab 的 类 型 被 自动 推断 为 Int 类 型 


2. 声明 常量 
常量 的 值 不 可 以 被 重新 指定 。 因 此 在 声明 常量 时 必须 指定 值 ， 类 型 也 可 依赖 于 值 自动 
推断 。 


val VariableName[:DataType]=Initial Value 


示例 如 下 : 


val ab:Int-30 
ab: Int = 30 
ab-50 提示 : 此 处 常量 ab 不 能 被 重新 赋值 ， 如 果 重 新 赋值 将 发 生 以 下 错误 


<console>:12: error: reassignment to val 


ab=50 


Es 


val ab-30 
ab: Int = 30 提示 : 此 处 常量 ab 的 类 型 被 自动 推断 为 Int 类 型 


13.1.2 运算 符 与 表达 式 


Scala 中 常用 基础 运算 符 如 下 : 
。 算术 运算 符 ， +、-、*、/、%。 
。 关系 运算 符 ， OLA c 
。 逻辑 运算 符 : &&、|、!。 
值 变 运算 符 : ++、 一 一 。 
成 员 运 算 符 : -. []. 
条 件 运 算 符 : ? :。 
et = 

-系列 的 操作 数 通过 运算 符 连 接 起 来 即 变 成 表达 式 。 最 简单 的 表达 式 是 一 个 常量 邓 
a a eben 当 不 明确 表达 式 之 间 的 具体 先后 顺序 时 ， 可 使 
用 小 括号 将 需 优 先 计 算 的 表达 式 括 起 来 。 

运算 符 与 表达 式 示 例如 下 : 


var a:Int=(3+2-5)*0/5 
als anis W 


提示 : riii Tam 算 括 号 内 的 342-5 部 分 然后 再 计算 后 面 的 乘除 部 分 ， 因 此 
最 终 得 到 的 计算 结果 


13.1.3 条件 分 ge 


关于 条 件 语句 的 视频 讲解 可 扫描 二 维 码 观看 。 
让 条 件 分 支 语法 (else 分 支 是 可 选 的 分 支 ): 


if (条 件 表达 式 ) { 

es 条 件 表达 式 返 回 true 时 执行 .................. 
}[else{ 

A SABE 条 件 表达 式 返 回 false 时 执行 .................. 
}] 


示例 如 下 比较 两 个 数 的 大 小 ): 


var a=100; 
a:i Tnt = 100 
var b=200; 
b: at = 200 
if (a>b) { 
printin (a); 


yelse{ 
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printin(b); 
} 
200 


提示 : a 的 值 小 于 b 将 导致 过 中 的 条 件 不 成 立 ， 所 以 最 终 打 印 出 b 的 值 。 
13.1.4 循环 流程 控制 


关于 循环 语句 的 视频 讲解 可 扫描 二 维 码 观看 。 
L for 循环 控制 语句 
for GERE REC HM to 终点 值 ) { 


示例 如 下 累加 1 到 100 的 和 ): 


var i=1; 

var sum=0; 

for(i<-1 to 100)( 
sum+=i; 

} 

printin (sum); 


2. while 循环 控制 语句 
while(〈 循 环 条 件 表达 式 ) { 


示例 如 下 (累加 1 到 100 的 和 ): 


var i:Int=1; 

var sum=0; 

while (i<=100) { 
sum+=i; 
i=itl; 

} 

printin (sum) ; 


13.1.5 Scala 数据 类 型 
1. Scala 基本 数据 类 型 


Scala 的 数据 类 型 包括 Byte、Short、 Int. Long. Float. Double、Char、String、Boolean、 


Unit、Null、Nothing、AnyVal、AnyRef、Any ^x. gj 9 种 称 为 基本 数据 类 型 ， 其 中 


P Unit 


指 代 没有 任何 类 型 ，Null 指 代 空 类 型 ，Nothing 指 代 所 有 类 型 的 子 类 型 ，AnyVal 指 代 所 有 


的 值 类 型 ，AnyRef 指 代 所 有 的 引用 类 型 ，Any 指 代 所 有 类 型 的 超 类 型 。 


示例 如 下 : 


var sum:Any-342-5*0/5 


sum: Any = 5 


提示 : 计算 出 来 的 结果 是 一 个 值 类 型 ， 该 值 类 型 可 以 自动 上 传 到 它 的 超 类 型 一 一 Any 
类 型 。 

2. 集合 数据 类 型 

集合 数据 类 型 包括 Array、List、Set、Tuple、Map 等 。 其 中 Array 称 为 数组 类 型 ，List 
称 为 列表 类 型 ，Set 称 为 表 列 类 型 ，Tuple 称 为 元 组 类 型 ，Map 称 为 字典 类 型 。 其 中 元 组 类 
型 根据 元 组 中 元 素 的 数量 和 类 型 又 可 以 分 为 多 种 元 组 子 类 型 。 

示例 如 下 : 


var arr:Array[String]=new Array[String] (3); 
arr: Array[string] = Array(null, null, null) 
arr (0)="liyongfu" 

arr(1)-"lixiangyu" 

arr(2)-"limingzhu" 

for(ele«-arr)println(ele) 

liyongfu 

lixiangyu 

limingzhu 


提示 : 方 括号 中 String 代表 数组 中 的 元 素 类 型 ， 小 括号 中 的 3 代表 数组 中 所 能 容纳 的 
元 素数 量 。 


13.2 Scala 运算 与 函数 


关于 运算 与 函数 的 视频 讲解 可 扫描 二 维 码 观看 。 

Scala 支持 面向 对 象 的 编程 风格 和 函数 式 的 编程 风格 ， 函 数 式 的 编程 风 
格 是 Scala 不 同 于 Java 的 一 个 亮点 所 在 。 在 Scala 中 可 以 通过 如 下 语法 创建 
一 个 函数 : 


def funName (. . .参数 列表 ...)[:type]={ 


函数 定义 示例 如 下 : 


def max(x: Int, y: Int) :Int={ 
if (x > y){ 
return x; 
Jelset( 
return y; 


} 第 
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max2: (x: Int, y: Int)Int 
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函数 调用 示例 如 下 : 


var maxData:Int-max (3, 5) 
res4: Int = 5 


提示 : 如 果 函 数 体 中 只 有 一 条 语句 ， 则 函数 体 两 端的 大 括号 可 省 略 。 
13.3 Scala HE 


关于 闭 包 的 视频 讲解 可 扫描 二 维 码 观看 。 
闭 包 是 在 函数 体内 部 可 以 访问 函数 体外 部 变量 的 过 程 。 类 似 于 Java 方 
法 体 中 访问 成 员 变 量 的 操作 过 程 。 
示例 如 下 : 
object Test { 
def main(args: Array[string]) ( 
println( "muliplier(1) value 
println( "muliplier(2) value 
} 
var factor = 3 
val multiplier = (i:Int) => i * factor 
} 


提示 : 

(DD object 用 于 定义 一 个 单 态 类 ， 在 Scala 中 没有 静态 方法 的 概念 。Scala 中 的 静态 方 
法 通过 单 态 类 来 实现 ， 在 object 中 定义 的 所 有 方法 默认 都 是 静态 的 。 

(2) 上 述 函数 体内 部 引用 的 multiplier 变量 是 在 函数 体外 部 定义 的 。 


13.4 Scala 数组 与 字符 串 


所 有 的 开发 语言 中 ， 字 符 串 是 应 用 最 为 广泛 的 一 种 数据 类 型 。 同 时 字符 串 的 底层 是 字 
符 数组 予以 存储 的 ， 因 此 可 结合 数组 来 学 习 字符 串 的 操作 。 


13.4.1 Scala 数组 


回 
$ 
关于 数组 的 视频 讲解 可 扫描 二 维 码 观看 。 x 
数组 是 用 于 存储 固定 长 度 的 一 系列 某 种 特定 类 型 的 元 素 集合 .数组 中 的 ”是 
元 素 按 线性 方式 排列 并 存储 在 内 存 中 。 
1. 定义 Scala 数组 时 必须 指定 数组 元 素 的 泛 型 ， 否 则 将 默认 为 Nothing 类 型 ， 拒 绝 将 
任何 元 素 添 加 到 数组 集合 中 去 。 
定义 Scala 数组 的 示例 1: 


var arr:Array-new Array (2); 


"+ multiplier(1) ) 
"+ multiplier(2) ) 


arr: Array[Nothing] - Array(null, null) 
arr(0)-"liyongfu" 


<console>:13: error: type mismatch; 

found  : String("liyongfu") 

required: Nothing 

arr (0)="liyongfu" 

提示 : 由 于 定义 数组 时 没有 指定 数组 泛 型 导致 候选 添加 元 素 发 生 错 误 。 

2. 简洁 方式 创建 数组 

这 种 方式 创建 数组 无 须 指定 数组 的 长 度 和 泛 型 。 因 为 数组 元 素 的 个 数 及 其 类 型 可 通过 
创建 数组 时 枚 举 的 值 来 判定 。 

简洁 方式 创建 数组 的 示例 如 下 : 

val arr-Array("li","yong","fu") 

arr: Array[String] = Array(li, yong, fu) 

scala> arr.apply(0) 

res30: String = li 

arr.apply(1) 

res31: String = yong 

提示 : Amay 之 后 的 小 括号 将 数组 中 的 所 有 元 素 直接 枚 举 出 来 ， 无 须 指定 数组 元 素 的 
类 型 和 个 数 。 


13.4. Scala 字符 串 


1 字符 串 常量 

Scala 中 的 字符 串 常量 有 三 种 形式 。 

(OD 单 引号 : 单个 字符 ， 如 'A'。 

QD 双 引 号 ， 表示 字符 串 ， 如 "ABC"。 

(3) 三 双 引 号 : 表示 具备 可 换行 的 多 行 字符 串 。 如 """ 可 换行 的 字 串 内 容 """。 

2. 字符 串 变量 

关于 字符 串 的 视频 讲解 可 扫描 二 维 码 观看 。 

Scala 中 的 String 类 型 就 是 java.lang.String 类 型 .Scala 没有 自己 的 String 
类 型 。 由 于 Scala 中 的 字符 串 由 Java 的 API 来 定义 ， 因 此 延 承 了 Java 中 字 
符 串 的 全 部 特性 ， 比 如 字符 串 的 不 可 变性 、 不 可 扩展 性 等 。 字 符 串 常用 的 
length 方法 可 测试 字符 串 的 长 度 , 若 需 要 连接 两 个 字符 串 可 以 直接 使 用 重 载 的 “+” 操 作 符 。 

字符 串 操 作 示例 如 下 : 


Var str="liyongfu"; 

str: String = liyongfu 

var len-str.length(); 

Ten Int = 8 

var str02:String=str+":36" 
str02: String = liyongfu:36 


13.5 Scala 迭代 器 
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迭代 器 示例 如 下 : 


val itc = Iterator("Baidu", "Google", "Runoob", "Taobao") 
itc: Iterator[String] = non-empty iterator 
scala> itc.size 
resá: Tnt = 4 
val itc = Iterator ("Baidu", "Google", "Runoob", "Taobao") 
itc: Iterator[String] = non-empty iterator 
scala> itc.length 
res’: int = 4 
val itc = Iterator ("Baidu", "Google", "Runoob", "Taobao" 
itc: Iterator[String] = non-empty iterator 
while (itc.hasNext) { 
printin (itc.next ()) 
} 
Baidu 
Google 
Runoob 
Taobao 


提示 : size 和 length 属性 均 返 回 迭 代 器 中 元 素 的 个 数 。 上 述 三 次 测试 均 重新 实例 化 的 
原因 是 调用 过 size. length 或 next 属性 后 导致 迭代 器 的 指针 已 指向 迭代 器 末尾 。 


13.6 Scala 类 和 对 象 


关于 类 和 对 象 的 视频 讲解 可 扫描 二 维 码 观看 。 

与 其 他 开发 语言 类 似 ，Scala 语言 也 是 面向 对 象 的 一 种 开发 语言 。 类 是 
具有 相同 属性 和 功能 行为 的 一 组 对 象 ， 而 对 象 是 类 的 具体 实例 。 使 用 具有 一 
定 特征 的 对 象 之 前 ,必须 先 定义 有 此 类 对 象 共性 特征 的 类 , 然后 使 用 该 类 实 
例 化 一 个 需要 使 用 的 具体 对 象 。 

Scala 类 定义 的 示例 如 下 : 


class Point(xc: Int, yc: Int) ( 
War xa ME = xc 
var y: Int = yc 
def move (dx: Int, dy: Int) { 
X — X + dx 
NAG AYE dy, 
println ("x 的 坐标 点 : " + x); 
println ("y 的 坐标 点 : " + y); 


提示 : 

(1) 定义 类 使 用 关键 字 class. 

(2) 上 述 定 义 了 一 个 坐标 类 Point， 该 类 的 构造 方法 中 定义 了 两 个 整 型 参数 ， 分 别 为 
xc、yc。 这 两 个 构造 参数 用 于 初始 化 类 的 成 员 变量 x 横 坐 标 和 y 纵 坐 标 ， 上 述 类 中 还 定义 
了 一 个 方法 move, 该 方法 没有 返回 值 , 其 作用 在 于 接收 两 个 用 于 说 明 移动 坐标 横向 增 量 和 
纵向 增 量 的 整 型 参数 来 移动 坐标 点 。 

Scala 类 实例 化 的 示例 如 下 : 


object Test { 
def main(args: Array[string]) ( 
val pt = new Point (10, 20); 
pt.move(10, 10): 
} 
} 


提示 : 使 用 关键 字 new 调用 类 的 构造 方法 〈 同 时 传递 构造 方法 所 需 的 两 个 坐标 参数 ) 
即 可 实例 化 坐标 类 为 一 个 坐标 对 象 ， 就 可 使 用 该 坐标 对 象 调用 move 方法 〈 同 时 传递 横 纵 
两 个 方向 上 的 移动 增 量 参数 ) 实现 坐标 点 的 移动 行为 。 


13.7 习题 与 思 


1. 编写 一 个 Conversions 对 象 ， 加 入 inchesToCentimeters 、gallonsToLiters 和 
milesToKilometers. 

2. 提供 一 个 通用 的 超 类 UnitConversion 并 定义 扩展 该 超 类 的 InchesToCentimeters. 
GallonsToLiters 和 MilesToKilometers X} $% o 

3， 定 义 一 个 Point 类 和 一 个 伴生 对 象 ， 使 得 可 以 不 用 new 而 直接 用 Point(3,4) 来 构成 
Point 实例 。 

4. 尝试 编写 一 个 Scala 应 用 程序 ， 以 反 序 打印 命令 行 参数 ， 用 空格 隔 开 。 例 如 : Hello 
Bunfly 应 该 打印 出 Bunfly Hello. 
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14.1 环境 搭建 


关于 环境 搭建 的 视频 讲解 可 扫描 二 维 码 观看 。 
14.1.1 准备 工作 


在 构建 Spark 集群 之 前 需 先 构建 Hadoop 集群 。 因 为 在 
数 应 用 场景 取 自 HDFS 分 布 式 存储 。Hadoop 集群 构建 可 参 
搭建 。 

Hadoop 环境 构建 结束 之 后 关闭 各 台 虚 拟 机 ， 并 将 每 个 虚拟 机 的 物理 内 存 调 整 到 2GB 
以 上 ， 主 机 分 配方 案 如 下 : 

192.168.37.154 master01 

192.168.37.155 master02 

192.168.37.156 slave01 


192.168.37.157 slave02 
192.168.37.158 slave03 


回忆 
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提示 :master01 与 master02 是 两 台 高 可 用 的 Master 节点 ,其 余 三 台 Slave 节点 是 Worker 
工作 节点 。 


14.1.2 T Af x Spark 


Spark 的 安装 包 可 以 到 官网 的 镜像 站 点 Chttpz//www-eu.apache.org) 下 载 。 本 书 以 Spark 
2.1.1 版 本 进行 讲解 。 
1. 安装 Spark 


mkdir -p /software 
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /software/ 
mv /software/spark-2.1.1-bin-hadoop2.7/ spark-2.1.1 


2. 配置 Spark 环境 

1) 配置 Spark 系统 变量 

vi /etc/profile 
JAVA HOME-/software/jdk1.7.0 79 
SCALA HOME-/software/scala-2.11.8 


HADOOP HOME-/software/hadoop-2.7.3 

SPARK HOME-/software/spark-2.1.1 

PATH-SPATH: JAVA HOME/bin:SJAVA HOME/lib:SSCALA HOME/bin:$HADOOP 
HOME/bin:SHADOOP HOME /sbin:SSPARK HOME/bin:SHBASE HOME/bin 
export PATH JAVA HOME SCALA HOME HADOOP HOME SPARK HOME 


提示 : 上 述 只 有 SPARK HOME 部 分 属于 新 增 的 环境 变量 ， 其 余部 分 都 是 在 安装 
Hadoop 时 已 经 设 定 好 的 环境 变量 。 
2) 配置 Spark 环境 变量 


Vi /software/spark-2.1.1/conf/spark-env.sh 
export JAVA HOME-/software/jdkl.7.0 79 
export SCALA HOME-/software/scala-2.11.8 
export HADOOP HOME-/software/hadoop-2.7.3 
export HADOOP CONF DIR=/software/hadoop-2.7.3/etc/hadoop 
export SPARK MASTER IP-master01,master02 
export SPARK WORKER MEMORY-1 700 


3) 配置 Spark 工作 节点 


cp /software/spark-2.1.1/conf/slaves.template slaves /software/ 
spark-2.1.1/conf/slaves 

slave01 

slave02 

slave03 


提示 : 安装 和 配置 必须 在 Spark 集群 的 每 个 节点 上 执行 。 
3. 启动 Spark 集群 
1) 在 三 个 Slave 节点 上 启动 ZK 集群 


hadoop@slave01 software]$ cd zookeeper-3.4.10/bin/ && ./zkServer. 
sh stop && jps 
hadoop@slave02 software]$ cd zookeeper-3.4.10/bin/ && ./zkServer. 
sh stop && jps 
hadoop@slave03 software]$ cd zookeeper-3.4.10/bin/ && ./zkServer. 
sh stop && jps 


2) 在 master01 节点 上 启动 HDFS 集群 


hadoop@master01 software]$ start-dfs.sh 
Starting namenodes on [master01 master02] 
master01: starting namenode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-namenode-master01.0ut 
master02: ssh: connect to host master02 port 22: No route to host 
slave03: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave03.out 
slave01: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
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hadoop-hadoop-datanode-slave01.out 

slave02: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave02.out 

Starting journal nodes [slave01 slave02 slave03] 

slave03: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-journalnode-slave03.out 

slave01: starting journalnode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-journalnode-slave01.out 

slave02: starting journalnode, logging to /software/hadoop-2.7.3/10gs/ 
hadoop-hadoop-journalnode-slave02.out 


3) 在 master01 节点 上 启动 Spark 集群 的 Master 节点 


[hadoop@master01 software]$ /software/spark-2.1.1/sbin/start-master.sh && jps 


starting org.apache.spark.deploy.master.Master, logging to /software/ 
spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.master. 
Master-1-master01.out 

3867 Master 

3020 NameNode 

3908 Jps 


4) 在 master02 节点 上 启动 Spark 集群 的 Master 节点 


[hadoop@master02 sbin]$ /software/spark-2.1.1/sbin/start-master.sh && jps 


5) 
使 


starting org.apache.spark.deploy.master.Master, logging to /software/ 
spark-2.1.1/10gs/spark-hadoop-org.apache. spark. deploy.master. 
Master-1-master02.out 

3869 Master 

3021 NameNode 

3909 Jps 


高 可 用 集群 测试 
用 浏览 器 访问 : 


http://master01:8080/ 提示: 界面 上 显示 Status:ALIVE 
http://master02:8080/ 提示: 界面 上 显示 Status : STANDBY 


在 
的 常见 
1. 
cluster 
原 
解 


142 ”常见 问题 汇总 


Spark 的 高 可 用 集群 环境 搭建 完成 之 后 ， 启 动 Spark 可 能 出 现 一 些 问 题 。 现 将 出 现 
问题 和 相应 的 解决 方案 收集 如 下 。 

WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your 
uito ensure that workers are registered and have sufficient memory 

因 分 析 : 集群 的 可 用 资源 不 足 ， 导 致 Spark 集群 无 法 为 新 提交 的 应 用 分 配 可 用 资源 。 
RAR: 暂停 低 优先 级 的 应 用 ， 让 更 多 的 可 用 资源 优先 执行 给 高 优先 级 的 应 用 。 


2. Application isn't using all of the Cores: How to set the Cores used by a Spark App 

原因 分 析 : 安装 的 Spark 版 本 没有 充分 利用 处 理 器 的 资源 ， 导 致 Spark 框架 给 出 上 述 
提示 建议 。 

解决 方案 : 修改 Spark 配置 文件 spark-env.sh， 修 改 参 数 spark.deploy.defaultCores 为 每 
台 服 务 器 节点 的 CPU 内 核 数量 。 

3. Spark Executor OOM: How to set Memory Parameters on Spark 

原因 分 析 : Spark 集群 在 运行 应 用 时 可 用 内 存 不 足 导 致 内 存 泄漏 。 如 果 在 启动 Spark 
集群 初期 发 生 此 种 异常 表示 Spark 初始 化 内 存 不 足 。 

解决 方案 ， 考虑 将 大 数据 集 分 批量 进行 处 理 以 减少 大 数据 量 对 内 存 的 冲击 ， 有 条 件 也 
可 直接 增加 物理 主机 的 内 存 。 

4. Class Not Found: Classpath Issues 
原因 分 析 : 相关 类 无 法 找到 。 这 种 异常 可 能 发 生 在 应 用 运行 期 间 , 也 可 能 发 生 在 Spark 
集群 启动 初期 。 若 发 生 在 Spark 集群 启动 初期 则 表示 Spark 的 安装 包 不 完整 或 被 损坏 ， 若 
发 生 在 应 用 运行 期 间 则 表示 打包 的 Job 中 缺少 依赖 的 JAR 包 。 

解决 方案 : 观察 错误 输出 日 志 ， 分 析 发 生 JAR 缺少 的 原因 ， 并 根据 情况 补充 相关 的 依 
Wi JAR 包 。 
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151 RDD 的 实现 


RDD (Resilient Distributed Datasets) 称 为 弹性 分 布 式 数据 集 , 是 Spark 的 运行 时 (Spark 
Runtime) 内 核实 现 ， 一 个 RDD 对 象 中 可 以 包含 多 个 Partition, Spark 应 用 运行 时 其 每 个 
Partition 都 对 应 着 一 个 具体 的 任务 ; Spark 基于 RDD 的 内 核实 现 涵盖 以 下 两 个 部 分 。 


15.1.1 数据 源 


Spark 处 理 的 数据 源 可 以 是 HDFS、Hive、HBase、S3、MySQL、Oracle 等 ， 处 理 之 后 
的 数据 可 被 输出 到 HDFS、Hive、HBase、S3、MySQL、Oracle 及 其 当前 的 控制 台 终 端 。 


15.1.2 ”调度 器 


Yam: 是 Apache 组 织 基于 MapReduce 算法 的 一 套 调度 框架 。 

Mesos: 是 Apache Spark 默认 的 一 套 基于 资源 管理 算法 的 调度 框架 。 

AWS: 是 亚马逊 旗下 的 一 套 分 布 式 系统 资源 调度 框架 。 

RDD 从 逻辑 上 看 是 一 个 抽象 分 布 式 数据 集 的 概念 , 其 底层 数据 存储 于 集群 中 不 同 节点 
上 的 磁盘 文件 系统 中 ， 存 储 是 按照 分 区 (partition) 方式 进行 的 ， 所 有 Spark 操作 都 可 看 成 
是 一 系列 对 RDD 对 象 的 操作 , 而 RDD 是 数据 集合 的 抽象 , 它 可 以 使 用 SparkContext( Spark 
EFX) 来 创建 ，SparkContext 是 Spark 集群 操作 的 入 口 。 若 是 在 Spark-Shell 下 操作 ， 则 
Spark 会 自动 创建 一 个 基于 已 有 配置 的 默认 SparkContext 对 象 ， 若是 编写 作业 Jar, WA 
己 手 动 创建 (与 Hadoop 中 的 FileSystem 相同 ， 可 通过 Configution 配置 参数 来 构建 ， 或 基 
于 classpath 中 的 配置 文件 )。 

从 RDD 的 实现 逻辑 来 看 ，Spark 操作 RDD 的 过 程 类 似 于 MapReduce 操作 HDFS 的 过 
FE, (E Spark 在 操作 过 程 中 会 缓存 中 间 步 又 的 数据 。Spark 的 Stage 有 以 下 几 点 缓存 特征 : 


(2) 若 Spark 应 用 的 计算 步骤 链 很 长 ， 则 会 增加 对 缓存 步骤 计算 结果 的 频次 。 

(3) shuffle 到 其 他 节点 上 的 数据 会 被 shuffle 到 的 目标 节点 缓存 一 次 ， 以 减少 不 必要 的 
VO 次 数 。 

(4) 从 一 个 作业 切换 到 下 一 个 作业 时 将 发 生 一 次 checkpoint 操作 。 在 此 ，checkpoint 
操作 之 前 会 缓存 上 一 个 作业 的 中 间 结 果 ，checkpoint 操作 会 将 数据 放置 于 磁盘 文件 系统 中 
以 保证 数据 不 发 生 丢 失 。 


152 RDD 编程 接口 


RDD 的 编程 接口 分 为 如 下 几 类 。 

1. 数据 源 自 于 集合 的 接口 

(1) parallelize: 将 内 存 中 的 集合 对 象 包 装 成 Spark 中 的 RDD WR. 

(2) createDataFrame: 将 内 存 中 的 集合 对 象 包装 成 Spark 中 的 DataFrame 对 象 。 

2. 数据 源 自 于 RDD 的 接口 

(1) collect: 将 RDD 对 象 转换 成 Java 集合 类 型 List WR. 

(2) createDataFrame: 将 RDD 对 象 转换 成 DataFrame 对 象 。 

3. 数据 源 自 于 DataFrame 的 接口 

(1) javaRDD: 将 DataFrame 对 象 转换 成 JavaAPI 中 的 RDD 对 象 。 

(2) collectAsList: 将 DataFrame 对 象 转换 成 Java API 中 的 List 集合 对 象 。 

Spark 的 编程 入 口 根据 不 同 的 子 系统 由 不 同 的 接口 实现 。 

(1) SparkContext: 基于 RDD 内 核 的 原生 接口 实现 ， 该 接口 是 Spark 其 他 入 口 的 实现 
基础 。 

(2) SqlContext: 基于 SparkContext 的 一 种 SQL 子 系统 实现 ， 主 要 用 于 Spark SQL T 
系统 中 。 

(3) StreamingContext: 基于 SparkContext 的 一 种 流 式 子 系统 实现 ， 主 要 用 于 
SparkContext 子 系统 中 。 

(4) HiveContext: 基于 SqlContext 的 一 种 HQL 子 系统 实现 , 主要 用 于 底层 存储 为 Hive 
的 子 系统 中 。 


15.3 RDD 操 作 
关于 RDD 操作 的 视频 讲解 可 扫描 二 维 码 观 看 。 
15.3.1 Spark 基于 命令 行 的 操作 


Spark 框架 可 借助 spark-shell 完成 命令 行 操作 。 具 体操 作 如 下 : 


/software/spark-2.1.1/bin/spark-shell --master spark://master01:7077 
scala» val mapRdd-sc.textFile("/spark/input").flatMap( .split(" ")). 


map (word=> (word,1)).reduceByKey( + ).map(entry-» (entry. 2,entry. 1)) 
mapRdd: org.apache.spark.rdd.RDD[(Int, String)] = MapPartitionsRDD[5] 
at map at«console»:24 

Scala» val sortRdd-mapRdd. sortByKey (false, 1) 

SortRdd: org.apache.spark.rdd.RDD[(Int, String)] = ShuffledRDD[6] at 
sortByKey at <console>:26 

scala> val mapRdd2=sortRdd.map(entry=>(entry. 2,entry. 1)) 
mapRdd2: org.apache.spark.rdd.RDD[ (String, Int) ] =MapPartitionsRDD[7] 
at map at <console>:28 


RDD #X 
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Scala» mapRdd2.saveAsTextFile ("/spark/output") 
Scala» :quit 


提示 : 

(1) 上 述 运 行 spark-shell 的 提示 中 显示 Scala 2.11.8 与 Spark 2.x 是 兼容 的 ， 推 荐 使 用 
IDK 1.8+ 的 版 本 。 

(2) 若 在 配置 文件 中 指定 export SPARK MASTER IP-master01 参数 配置 ， 则 在 运行 
spark-shell 或 spark-submit 时 无 须 指定 --master BRL; 若 在 命令 行 中 指定 了 --master 参数 则 
会 覆盖 配置 文件 中 配置 的 值 。 

命令 行程 序 解析 如 下 。 

(1) Spark 默认 以 Spark on Mesos 模式 运行 spark-shell， 指 定 master 参数 为 : 


spark://master01:7077 


(2) Spark 命令 行 工具 启动 时 将 会 先后 启动 Spark 上 下 文 CSparkContex 和 SQL 上 下 
X (SQLContext); 这 两 个 对 象 分 别 被 赋值 给 上 下 文中 的 sc 变量 和 SQLContext 变量 ; 因此 
可 在 命令 行 中 直接 使 用 这 两 个 变量 。 

(3) 在 Spark 命令 中 多 次 使 用 到 Spark 的 各 种 算 子 函数 ， 这 些 函 数 的 功能 和 作用 介绍 
如 下 。 

© textFile 函数 ”该 函数 将 返回 一 个 org.apache.sparkrddRDD[String] 类 型 的 对 象 (RDD 
在 Spark 的 架构 源码 中 被 Scala 定义 为 一 个 接口 (trait) 类 型 ; 方 括号 中 的 String 表示 RDD 
集合 中 的 元 素 类 型 为 字符 串 类 型 ;RDD 的 具体 实现 是 MapPartitionRDD( 即 字典 分 区 RDD)， 
textFile 操作 仅 执行 数据 抽象 ， 并 不 立即 执行 数据 的 读 取 (read) 操作 。 数 据 的 读 取 操 作 会 
延迟 到 执行 action 动作 时 才 发 生 ; 因此 textFile 函数 属于 一 种 transformation 动作 ， 
transformation 动作 是 lazy 级 别 的 操作 。 

© count 函数 ”返回 数据 集中 的 记录 数量 ， 会 启动 一 个 action (textFile 函数 是 一 种 转 
换 (transformation)， 不 会 启动 action); action 是 指 Spark 会 在 底层 启动 作业 (Job) ERE 
% (Task) 的 计算 操作 ， 而 转换 Ctransformation) 仅 实现 数据 的 封装 和 抽象 。 只 涉及 数据 
在 节点 本 地 上 的 抽象 读 〈 注 意 : 没有 真正 意义 上 的 读 ， 因 为 没有 产生 任何 VO 操作 )， 但 数 
据 的 写 操作 属于 action 操作 ， 因 为 它 涉及 VO 操作 过 程 ， 比 如 saveAsTextFile PAH. 

®© map 函数 ”该 函数 将 集合 中 的 各 个 元 素 映射 为 指定 的 对 象 ， 然 后 返回 一 个 新 的 
RDD 集合 对 象 。 

@ flatMap 函数 ”该 函数 处 理 DataSet 集合 中 的 每 一 行 ， 将 每 一 行 得 到 的 集合 元 素 释 
放 到 最 外 层 集合 中 。 此 函数 完成 调用 后 将 产生 一 个 新 的 RDD 对 象 结果 集 ， 该 函数 会 深层 
次 递归 处 理子 级 元 素 并 将 其 提取 到 最 外 层 的 集合 对 象 中 去 。 

© reduceByKey 函数 ”该 函数 将 数据 集中 元 组 的 第 一 个 元 素 作为 Key 进行 分 组 , 同时 
递归 从 代 和 归并 函数 中 的 两 个 参数 。 

© sortByKey 函数 ”该 函数 根据 数据 集中 元 组 的 第 一 个 参数 进行 排序 处 理 ， 通 过 第 二 
个 参数 指定 并 行 度 。 

© saveAsTextFile 函数 ”该 函数 将 数据 集 作为 文本 格式 存储 到 参数 指定 的 目录 下 。 


15.32 Spark 基于 应 用 作业 的 操作 


Spark 框架 可 借助 Sa submit 来 提交 一 个 编写 好 的 Job 应 用 到 集群 ， 从 而 完成 Spark 
应 用 的 分 析 和 处 理 ， 这 通常 是 生产 场景 中 使 用 的 一 种 操作 方式 。 


/software/spark-2.1.1/bin/spark-submit --class org.apache.spark. 
examples.JavaSparkPi --master spark:// 
master01:7077 ../examples/jars/spark-examples 2.11-2.1.1.jar 1 
17/08/10 00:43:14 INFO spark.SparkContext: Running Spark version 2.1.1 
17/08/10 00:43:14 WARN spark.SparkContext: Support for Java 7 is 
deprecated as of Spark 2.0.0 
17/08/10 00:43:15 WARN util.NativeCodeLoader: Unable to load 
native-hadoop library for your platform... using builtin-java classes 
where applicable 
17/08/10 00:43:16 INFO spark.SecurityManager: Changing view acls to: 
hadoop 


17/08/10 00:43:17 INFO spark.SparkEnv: Registering 
OutputCommitCoordinator 

17/08/10 00:43:17 INFO util.log: Logging initialized @5486ms 
17/08/10 00:43:18 INFO server.Server: jetty-9.2.z-SNAPSHOT 


提示 : 

COD 为 节省 篇 幅 ， 上 述 部 分 日 志 打印 已 被 笔者 省 略 。 

(2) --class 参数 用 于 指定 提交 JAR 包 中 的 运行 主 类 。 

(3) 最 后 的 数字 1 代表 运行 的 slices 数量 ( 即 并 行 度 ), 每 一 个 slice 都 将 启动 一 个 Task 
来 运行 ， 每 一 个 Task 任务 对 应 一 个 JVM 进程 。 

(4) /software/spark-2.1.1/examples/jars/spark-examples 2.11-2.1.1.jar 是 提交 到 Spark 集 
群 的 Job 作业 打包 JAR， 这 与 Hadoop 提交 作业 的 方式 是 相同 的 。 


15.3.3 Spark 操作 的 基础 命令 与 开发 工具 介绍 


(1) 在 Spark 的 安 装 目录 下 的 bin 目录 中 有 以 下 两 个 运行 命令 。 

(D spark-submit: 该 命令 用 于 提交 Spark 的 Job 应 用 ， 通 常用 于 测试 。 

Q) spark-shell: Spark 交互 式 命令 行 工具 ， 通 常用 于 生产 环境 。 

(2) FFA Spark 应 用 可 使 用 Intellij IDEA 或 Eclipse， 目 前 大 多 数 企业 中 在 生产 上 使 用 
的 是 Eclipse 工具 ， 如 果 使 用 基于 Eclipse 来 开发 Spark 应 用 ， 则 考虑 如 下 两 点 。 

(D) FIEF Scala 语言 来 开发 Spark 应 用 ,推荐 使 用 Scala IDE For Eclipse 44LUNA 版 本 。 

Q) FIEF Java 语言 来 开发 Spark 应 用 ,推荐 使 用 MyEclipse 2014 或 JavaEE For Eclipse 
4.5 Mars 版 本 。 


15.3.4 Spark 基于 YARN 的 调度 模式 
(1) 由 于 YARN 模式 下 不 需要 Mesos 模式 下 的 所 有 Master 进程 和 所 有 Worker 进程 ， 
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[hadoop@master01 sbin]$ ./stop-slaves.sh 

slave01: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/1o0gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave01.out 

slave02: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave02.out 

slave03: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave03.out 
[hadoop@master01 sbin]$ ./stop-master.sh 

starting org.apache.spark.deploy.master.Master, logging to /software/ 

Spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.master.Master 

-1-master01.0ut 


VER: 启动 Spark 高 可 用 模式 则 高 可 用 组 下 的 所 有 Master 进程 停止。 
[hadoop@master02 sbin]$ ./stop-master.sh 
(2) 启动 YARN 集群 : 


[hadoop@master01 software]$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /software/hadoop-2.7.3/ 
logs/yarn-hadoop-resourcemanager-master01.out 
slave01: starting nodemanager, logging to /software/hadoop- 
2.7.3/10gs/yarn-hadoop-nodemanager-slave01.out 
slave03: starting nodemanager, logging to /software/hadoop- 
2.7.3/10gs/yarn-hadoop-nodemanager-slave03.out 
slave02: starting nodemanager, logging to /software/hadoop- 
2.7.3/logs/yarn-hadoop-nodemanager-slave02.out 


VER: 启动 YARN 高 可 用 模式 则 应 将 高 可 用 组 下 的 其 他 RM 进程 开启 。 
[hadoop@master02 software]$ yarn-daemon.sh start resourcemanager 
(3) 在 YARN 模式 下 运行 spark-shell 需要 指定 --master yam 参数 。 


[hadoop@CloudDeskTop bin]$ hdfs dfs -rm -r /spark/output 
17/08/13 23:16:51 INFO fs.TrashPolicyDefault: Namenode trash 
configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes. 
Deleted /spark/output 

[hadoop@CloudDeskTop bin]$ ./spark-shell --master yarn 
Setting default log level to "WARN".To adjust logging level 
use sc.setLogLevel (newLevel). For SparkR, use setLogLevel (newLevel). 
17/08/13 23:13:33 WARN spark.SparkContext: Support for Java 7 is 


deprecated as of Spark 2.0.0 

17/08/13 23:13:35 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where 
applicable 

17/08/13 23:13:44 WARN yarn.Client: Neither spark.yarn. jars nor spark. 
yarn.archive is set, falling back to uploading libraries under 

SPARK HOME. 

17/08/13 23:15:40 WARN metastore.ObjectStore: Failed to get database 
global temp, returning NoSuchObjectException 

Spark context Web UI available at http://192.168.37.153:4040 

Spark context available as 'sc' (master = yarn, app id = application 

1502633061749 0001). 

Spark session available as 'spark'. 

Welcome to 


"ly VIE 
NAYAN? K AT YA 
Vo NG JN ETE NS Version 2- Ll 
Uy 
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 
yog 


Type in expressions to have them evaluated. 

Type :help for more information. 
scala» sc.textFile("/spark/input").flatMap( .split(" ")).map(word-» (word, 
1)).reduceByKey( + ).map(entry-»(entry. 2,entry. 1)).sortByKey(false,l). 
map(entry-» (entry. 2,entry. 1)).saveAsTextFile("/spark/output") 
Scala» :q 


提示 : 查看 HDFS 中 的 运行 输出 结果 。 


[hadoop@CloudDeskTop bin]$ hdfs dfs -cat /spark/output/part-00000 
(is, 4) 
(my, 4) 
(118,1) 
11-67,1) 
(35,1) 
(weight,1) 
(name, 1) 
(height,1) 
(age, 1) 
(liyongfu, 1) 


(4) 在 YARN 模式 下 运行 spark-submit 需要 指定 --master yarn. 


[hadoop@CloudDeskTop bin]$ ./spark-submit --class org.apache.spark. 第 
examples.JavaSparkPi --master yarn ../examples/jars/spark-examples 15 
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2A SIGA! 

17/08/13 23:23:55 INFO spark.SparkContext: Running Spark version 2.1.1 
17/08/13 23:23:55 WARN spark.SparkContext: Support for Java 7 is 
deprecated as of Spark 2.0.0 

17/08/13 23:23:56 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where 
applicable 


17/08/13 23:24:00 INFO util.log: Logging initialized @6433ms 
17/08/13 23:24:00 INFO server.Server: jetty-9.2.z-SNAPSHOT 


提示 : 

O 在 YARN 模 式 下 运行 spark-submit 须 指定 --master yarn --deploy-mode Z% cluster, 
即 以 集群 方式 运行 。 

@ 上 述 操作 均 基 于 master01 节点 上 执行 ,使 用 Mesos 方式 和 YARN 方式 均 须 启动 ZK 
集群 和 HDFS 集群 。 在 YARN 模式 下 运行 时 ， 由 于 未 使 用 Master 进程 与 Worker 进程 ， 应 
将 其 关闭 。 一 旦 关闭 Master 进程 , 则 无 法 使 用 浏览 器 访问 http://master01:8080 地 址 观察 Job 
运行 情况 ， 因 为 此 时 资源 调度 组 件 实际 上 是 YARN， 浏 览 器 应 通过 http://master01:8088 地 
址 访问 Job 运行 情况 。 

@ 由 于 Spark 运行 于 Mesos 模式 下 的 技术 相对 Yarn 模式 更 加 成 熟 ， 同 时 企业 实践 中 
以 Mesos 为 主导 模式 ， 因 此 本 书 的 讲解 均 是 基于 Spark on Mesos 模式 的 。 


15.3.5 Spark 基于 Scala 语言 的 本 地 应 用 开发 


(1) FE Scala 4.4 的 Eclipse 版 本 中 新 建 一 个 Scala 工程 和 Spark2.1.1-All 的 用 户 库 ， 将 
~/Spark2.1.1-All 目录 中 的 所 有 JAR 包 均 导入 Spark2.1.1-All 用 户 库 ， 并 将 此 用 户 库 添加 到 
当前 的 Scala 工程 。 

(2) 在 Scala 工程 中 创建 一 个 带 main 方法 的 入 口 类 。 

执行 File > New — Scala Object 命令 ， 在 弹出 的 对 话 框 的 Name 栏 输入 
“com.bunfly.bigdata.spark.rdd. local.WordCount”， 其 中 WordCount 是 类 名 ，com.bunfly. 
bigdata.spark.rdd.local 是 包 名 ， 下 面 是 仿照 Hadoop 中 的 WordCount 代码 使 用 Spark 来 实现 
的 。 完 整 代码 如 下 所 示 : 


package com.bunfly.bigdata.spark.rdd.local 
import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.rdd.RDD 
object WordCount { 
def main(args: Array[String]): Unit = { 
val conf:SparkConf-new SparkConf (); 
conf.setAppName ("Local Scala Spark RDD"); 
conf.setMaster ("local") ; 
val sc:SparkContext=new SparkContext (conf) ; 
val fp:RDD[String]-sc.textFile("/project/scala/SparkRDD/input", 1); 


val wordList:RDD[String]-fp.flatMap((line:String)-»line.split(" ")); 
val tupleWordList:RDD [Tuple?2 [String, Int] ]-wordList.map (word=> 

(word, 1))7 
val tupleWordGroupList:RDD[Tuple2 [String, Int] ]-tupleWordList. 
reduceByKey ( 
(preValue:Int, nextValue: Int) =>preValuet+nextValue) ; 
val f:File-new File("/project/scala/SparkRDD/output") ; 
if(f.exists()&&f.isDirectory())f.delete(); 
tupleWordGroupList .saveAsTextFile ("/project/scala/SparkRDD/output") ; 


) 


提示 : df master 主机 设置 为 local 则 表示 本 地 运行 。 本 地 运行 时 Spark 会 启动 一 个 集群 
模拟 器 运行 Job 作业 ， 本 地 运行 仅 在 Eclipse 或 直接 使 用 Java 命令 等 运行 ， 不 可 使 用 
spark-submit 提交 运行 ， 因 为 该 命令 装载 Spark 环境 配置 并 连接 到 Spark 集群 ， 而 本 地 模式 
下 无 须 连 接 集 群 ， 仅 适合 在 本 地 开发 环境 测试 代码 。 

(3) 使 用 scala 命令 运行 本 地 模式 

切换 到 工程 目录 下 的 bin 目录 ， 将 上 述 编译 后 的 代码 打包 后 直接 使 用 scala 命令 运行 。 


jar -cvfe WordCount.jar com.bunfly.bigdata.spark.rdd.local.WordCount.jar 
com/ 
scala WordCount.jar 


15.3.6 Spark 基于 Scala 语言 的 集群 应 用 开发 
编写 集群 提交 的 应 用 代码 如 下 : 


package com.bunfly.bigdata.spark.rdd.cluster 
import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.rdd.RDD 
import java.io.File 
import org.apache.hadoop.fs.FileSystem 
import org.apache.hadoop.conf.Configuration 
import java.net.URI 
import org.apache.hadoop.fs.Path 
object WordCount { 
var fs:FileSystem=null; 
{ 
val hconf:Configuration-new Configuration () : 
fs-FileSystem.get (new URI ("hdfs://ns1/"), hconf, "hadoop"); 
} 
def main(args: Array[String]): Unit = { 
val conf:SparkConf-new SparkConf (); 


conf.setAppName ("Cluster Scala Spark RDD"); # 
val sc:SparkContext-new SparkContext (conf) ; 15 
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val fp:RDD[String]=sc.textFile("/spark/input", 1); 

val wordList:RDD[String]=fp.flatMap ((line:String)=>line.split(""));7 
val tupleWordList:RDD[Tuple2[String, Int] ]=wordList. 

map (word=>(word,1)); 

val tupleWordGroupList:RDD[Tuple2[String, Int] ]=tupleWordList. 
reduceByKey ( 

(preValue: Int, nextValue: Int) =>preValue+nextValue) ; 

val dst:Path=new Path("/spark/output") ; 

if (fs.exists (dst) &&fs.isDirectory (dst) )fs.delete(dst, true); 
tupleWordGroupList .saveAsTextFile("/spark/output") ; 

sc.stop(); 


) 


切换 到 工程 目录 下 的 bin 目录 ， 将 上 述 编译 后 的 代码 打包 后 使 用 如 下 spark-submit 命 
令 运 行 : jar -cvfe WordCount.jar com.bunfly.bigdata.spark.rdd.cluster. WordCount.jar com/spark- 
submit--master spark://master01:7077 /project/scala/SparkRDD/clusterdist/wordcountcluster.jar 1 。 


15.3.7 Spark 基于 Java 语言 的 应 用 开发 


1. Java 在 Spark 中 的 应 用 

Spark 自身 使 用 Scala 程序 开发 ，Scala 语言 是 具备 函数 式 编程 和 指令 式 编程 的 一 种 语 
ric Spark 源码 基于 Scala 函数 式 编程 进行 设计 ， 官 方 推荐 Spark 开发 人 员 基 于 Scala [PA 
数 式 编程 实现 Spark 的 Job 开发 ， 但 目前 仍 以 Java 作为 Spark 在 生产 上 的 主流 开发 ， 其 原 
因 主要 有 以 下 几 点 。 

CD Java 已 成 为 行业 内 的 主流 语言 ， 社 区 相当 活跃 ， 相 比 Scala 有 更 多 的 资料 和 文档 
供 项 目 开发 参考 。 

(2) Spark 项 目 会 与 其 他 己 有 的 Java 项 目 进行 集成 ， 即 使 用 Java 开发 Spark 项 目 将 可 
以 更 好 地 实现 与 已 有 的 各 基于 Java 的 平台 进行 对 接 和 整合 。 

(3) 行业 内 的 Scala 程序 员 目 前 相当 匮乏 ，Spark 提供 了 基于 Scala 与 Java 的 两 套 API 
实现 。 由 于 Scala 的 学 习 成 本 较 之 Java 更 高 ， 因 此 很 多 公司 和 企业 更 倾向 于 使 用 Java。 

2. Spark 中 Java API 的 特征 

Java 的 API 是 基于 Scala 的 API 的 来 对 应 设计 的 。Scala 的 API 基于 函数 式 , 而 函数 式 
编程 的 一 个 重要 特征 就 是 函数 本 身 可 作为 函数 的 参数 进行 传递 〈 即 实现 高 阶 函 数 调用 )。 
Java 的 编程 方式 是 指令 式 ， 指 令 式 编程 中 函数 的 参数 类 型 可 以 是 基本 类 型 和 对 象 类 型 而 无 
法 直接 是 函数 类 型 。Spark WG Scala 的 API 设计 一 致 , 采用 函数 参数 为 对 象 类 型 的 传递 方 
式 。 由 于 受 Spark API HIIRE, Spark 提供 的 各 函数 参数 类 型 均 固 定 ，Scala 语法 实现 的 API 
其 函数 的 参数 类 型 是 函数 类 型 ， 参 数 函 数 的 类 型 依赖 于 参数 函数 的 名 称 、 参 数 函 数 的 参数 
列表 、 参 数 函数 的 返回 类 型 。 

Java 语法 实现 的 Spark API 的 函数 参数 类 型 是 对 象 类 型 ， 由 于 参数 对 象 类 型 受 Spark 
API 限定 ， 因 此 Spark 提供 了 专门 针对 函数 参数 对 象 类 型 的 接口 。 在 调用 方法 时 通过 传递 
接口 类 型 的 实例 即 可 回调 与 函数 式 编程 中 相似 的 参数 函数 对 象 ， 即 函数 式 编程 中 的 参数 函 


数 相 当 于 参数 接口 中 定义 的 方法 ， 参 数 接口 可 单独 实现 也 可 使 用 局 部 内 部 类 来 实现 ， 由 于 
参数 接口 回调 大 多 是 临时 的 而 不 是 通用 的 ， 因 此 在 生产 上 采用 局 部 内 部 类 来 实现 参数 接口 
的 情况 更 普遍 。 
值得 注意 的 是 , 使 用 Java 开发 Spark 项 目 时 , 其 参数 接口 通常 被 Spark 官方 泛 型 定义 ， 
Spark 定义 泛 型 化 的 参数 接口 是 在 编译 期 检查 接口 中 回调 函数 的 参数 列表 和 返回 类 型 。 
提示 : 目前 企业 中 以 使 用 Java 开发 Spark 居多 ， 因 此 这 里 通过 Java 来 讲解 Spark 的 开 
发 过 程 。 


15.3.8 Spark 基于 Java 语言 的 本 地 应 用 开发 


(1) 使 用 Eclipse 4.5 (mars 版 本 ) 创建 一 个 Java 工程 SparkRDD， 并 在 此 工程 下 创建 
一 个 用 于 本 地 输入 的 目录 input。 


[hadoop@CloudDeskTop software]$ mkdir -p /project/SparkRDD/input 


(2) 在 Eclipse 4.5 中 创建 Spark2.1.1-All 用 户 库 , 将 ~/Spark2.1.1-All 目录 中 的 所 有 JAR 
包 均 导入 Spark2.1.1-All 用 户 库 中 ， 并 将 此 用 户 库 添加 到 当前 的 Java 工程 中 。 


UES: 由 于 更 换 Eclipse 版 本 ， 之 前 Scala-eclipse 中 的 用 户 库 无 法 使 用 ， 因 此 针对 
Eclipse 4.5 版 本 的 Spark 用 户 库 需 重新 创建 。 


(3) 将 输入 文件 复制 至 创建 的 input 目录 : 


[hadoop@CloudDeskTop project]$ cp -a /project/scala/SparkRDD/input/ 
{first.txt, second.txt} /project/SparkRDD/input/ 


(4) 将 上 述 Scala 代码 版 本 翻译 为 Java 代码 如 下 : 


package com.bunfly.bigdata.spark.rdd.local; 
import java.io.File; 
import java.util.Arrays; 
import java.util.Iterator; 
import org.apache.spark.SparkConf; 
import org.apache.spark.api.java.JavaPairRDD; 
import org.apache.spark.api.java.JavaRDD; 
import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java.function.FlatMapFunction; 
import org.apache.spark.api.java.function.Function2; 
import org.apache.spark.api.java.function.PairFunction; 
import scala.Tuple2; 
public class WordCount { 

private static void deleteDir(File f) { 

if (£.isFile() ||f£-listFiles() .length==0) { 
f.delete(): 


return: 
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File[] files-f.listFiles(); 
for(File fp:files) deleteDir (fp); 
f.delete(); 
H 
public static void main(String[] args) ( 
SparkConf conf-new SparkConf (): 
conf.setAppName ("") ; 
conf.setMaster ("local"); 
JavaSparkContext sc-new JavaSparkContext (conf); 
JavaRDD<String> lineRdd-sc.textFile("/project/SparkRDD/input", 1); 
JavaRDD<String> wordRdd-lineRdd.flatMap (new FlatMapFunction<String, 
String» 0 { 
@override 
public Iterator<String> call (string line) throws Exception { 
String[] wordArr-line.split(" "); 
return Arrays.asList (wordArr) .iterator(); 


Di 
JavaPairRDD<String, Integer> wordTupleList=wordRdd.mapToPair (new 
PairFunction<String, String, Integer>() { 
@override 
public Tuple2<String, Integer» call (string word) throws Exception ( 
return new Tuple2<String, Integer» (word, 1): 


Di 
JavaPairRDD<String, Integer> wordGroupList=wordTupleList. 
reduceByKey (new 
Function2«Integer, Integer, Integer>() { 
@override 
public Integer call (Integer prev, Integer next) throws Exception ( 
return prev+next; 


Ni 
File fp=new File("/project/SparkRDD/output") : 
if (fp.exists())deleteDir (fp): 
wordGroupList.saveAsTextFile ("/project/SparkRDD/output") ; 
} 
(5) 本 地 测试 : 基于 本 地 Cocal) 模式 的 Spark 应 用 可 直接 在 Eclipse 中 测试 。 
15.3.9 Spark 基于 Java 语言 的 集群 应 用 开发 


(1) 在 工程 目录 SparkRDD 下 创建 一 个 用 于 存储 打包 文件 的 目录 clusterdist。 


[hadoop@CloudDeskTop software]$ /project/SparkRDD/clusterdist 


(2) 翻译 Scala 集群 开发 的 源 代码 为 Java 代码 。 代 码 如 下 : 


package com.bunfly.bigdata.spark.rdd.cluster; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
public 


java.io.IOException; 


java.net.URI; 


java.net.URISyntaxException; 


java.util.Arrays; 


java.util.Iterator; 


org.apache.hadoop.conf.Configuration; 


org.apache.hadoop.fs.FileSystem; 


org.apache.hadoop.fs.Path; 
org.apache.spark.SparkConf; 


org.apache.spark.api.java.JavaPairRDD; 


org.apache.spark.api.java.JavaRDD; 


org.apache.spark.api.java.JavaSparkContext; 


org.apache.spark.api.java.function.FlatMapFunction; 


org.apache.spark.api.java.function.Function2; 


org.apache.spark.api.java.function.PairFunction; 


scala.Tuple2, 
class WordCount ( 


private static Filesystem fs: 


static{ 


} 


Configuration conf=new Configuration(); 


try { 


fs=FileSystem.get (new URI ("hdfs://ns1/"), conf, 


} catch (IOException e) ( 


e.printStackTrace(); 


) catch (InterruptedException e) ( 


e.printStackTrace(); 


) catch (URISyntaxException e) ( 


e.printStackTrace(); 


"hadoop") ; 


public static void main(String[] args) throws IOException { 


SparkConf conf-new SparkConf (): 
conf .setAppName ("") ; 


JavaSparkContext sc=new JavaSparkContext (conf); 
JavaRDD<String> lineRdd=sc.textFile("/spark/input", 1); 

JavaRDD<String> wordRdd=lineRdd.flatMap(new FlatMapFunction 
«String, Strings ()( 


Hi 


@override 


public Iterator<String> call (string line) throws Exception { 


String[] wordArr-line.split(" "); 
return Arrays.asList (wordArr) .iterator(); 
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JavaPairRDD<String, Integer> wordTupleList-wordRdd.mapToPair (new 
PairFunction<String, String, Integer>() { 
@override 
public Tuple2<String, Integer» call (String word) throws Exception ( 
return new Tuple2<String, Integer>(word,1); 


H; 
JavaPairRDD<String, Integer> wordGroupList=wordTupleList. 
reduceByKey (new 
Function2«Integer, Integer, Integer>() { 
GOverride 
public Integer call(Integer prev, Integer next) throws Exception ( 
return prev+next; 


):; 

Path dist-new Path("/spark/output"); 
if(fs.exists(dist))fs.delete(dist, true); 
wordGroupList.saveAsTextFile ("/spark/output") ; 


) 


(3) 打包 Spark 应 用 至 clusterdist 目录 。 
删除 之 前 的 输出 目录 : 


hadoop@CloudDeskTop bin]$ hdfs dfs -rm -r /spark/output 


IBA Spark 工程 目录 的 bin 目录 下 ， 将 com 文件 夹 打包 至 工程 目录 下 的 clusterdist 
F: 
hadoop@CloudDeskTop software]$ cd /project/SparkRDD/bin/ 


hadoop@CloudDeskTop bin]$ jar -cvf /project/SparkRDD/clusterdist/ 
wordcountcluster.jar com/ 


(4) 提交 Job 到 Spark 集群 。 


hadoop@CloudDeskTop software]$ cd /software/spark-2.1.1/bin/ 
hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01: 
7077 --class com.bunfly.bigdata.spark.rdd.cluster.WordCount /project/ 
SparkRDD/clusterdist/wordcountcluster.jar 1 

17/08/16 00:38:40 WARN util.NativeCodeLoader: Unable to load 
native-hadoop library for your platform... using builtin-java classes 


where applicable 

17/08/16 00:38:42 INFO spark.SparkContext: Running Spark version 2.1.1 
17/08/16 00:38:42 WARN spark.SparkContext: Support for Java 7 is 
deprecated as of Spark 2.0.0 


17/08/16 00:38:44 INFO spark.SparkEnv: Registering 


OutputCommitCoordinator 
17/08/16 00:38:44 INFO util.log: Logging initialized @8137ms 
17/08/16 00:38:44 INFO server.Server: jetty-9.2.z-SNAPSHOT 


(5) 查看 输出 目录 下 是 否 有 数据 生成 。 


[hadoop@CloudDeskTop bin]$ hdfs dfs -1s /spark 

Found 2 items 

drwxr-xr-x  - hadoop supergroup 0 2017-08-09 09:13 /spark/input 
drwxr-xr-x  - hadoop supergroup 0 2017-08-16 00:39 /spark/output 
[hadoop@CloudDeskTop bin]$ hdfs dfs -1s /spark/output 

Found 2 items 

-rw-r--r-- 3 hadoop supergroup 0 2017-08-16 00:39 /spark/output/ SUCCESS 
-rw-r--r-- 3 hadoop supergroup 90 2017-08-16 00:39 /spark/output/ 
part-00000 

[hadoop@CloudDeskTop bin]$ hdfs dfs -cat /spark/output/part-00000 
(118,1) 

(is,4) 

(name, 1) 

(1.67,1) 

(35,1) 

(height, 1) 

(age, 1) 

(liyongfu, 1) 

(my, 4) 

(weight, 1) 


提 R: 

CD 将 Job PEER, 1867) ARTE Eclipse 工程 中 测试 。 这 种 操作 可 预测 性 小 ， 易 
出 现 异 常 。 若 需 直 接 在 Eclipse 中 测试 ， 可 以 设置 提交 的 master 节点 。 如 下 : 

SparkConf conf=new SparkConf (): 

conf.setAppName("Cluster Java Spark RDD"); 


conf.setMaster ("spark://master01:7077"); 
JavaSparkContext sc-new JavaSparkContext (conf); 


(2) 由 于 Job 涉及 HDFS 的 文件 操作 ， 需 连接 到 HDFS 完成 ， 因 此 需 将 Hadoop 的 配 
置 文件 复制 至 工程 的 根 目 录 。 


[hadoop@CloudDeskTop software]$ cd hadoop-2.7.3/etc/hadoop/ 
[hadoop@CloudDeskTop hadoop]$ cp -a core-site.xml hdfs-site.xml /project/ 
SparkRDD/src/ 
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1. RDD 是 什么 ? 为 什么 会 产生 RDD? 
2. 尝试 利用 Spark RDD 技术 做 词 频 统 计 。 


第 16 章 Spark SQL 


16.1 Spark SQL 架构 原理 


16.1.1 Hive 的 两 种 功能 


(1) 作为 数据 仓库 提供 存储 功能 (Hive 的 元 数据 ， 如 库 、 表 等 结构 信息 ， 均 由 Hive 
自身 来 维护 ， 但 数据 本 身 存储 在 HDFS 集群 中 )。 

COD 作为 查询 引擎 提供 检索 查询 功能 (如 Hive-SQL， 简 称 为 HQL)。Spark SQL 仅 代 
$ Hive 的 查询 引擎 ， 而 存储 本 身 需 借助 于 其 他 存储 介质 ， 其 中 Hive 仓库 就 是 Spark SQL 
常用 的 一 种 存储 介质 。 在 企业 实际 生产 环境 下 , Hive 存储 +Spark SQL 查询 引擎 属 最 佳 的 实 
KAT. 

查询 引擎 的 作用 是 : 将 应 用 层 提供 的 SQL 语句 翻译 为 计算 框架 的 Job 代码 , 并 将 其 Job 
提交 到 集群 执行 的 一 种 查询 机 制 。 

Hive 查询 引擎 的 功能 如 下 。 

CD HQL 翻译 成 MR 代码， 产生 一 到 多 个 Job 作业 (一 个 HQL 有 可 能 被 翻译 成 一 
连 串 的 Job 作业 )。 

(2) 将 Job 打 成 JAR 包 并 发 布 到 Hadoop 集群 中 运行 。 

Hive 就 相当 于 Hadoop 的 一 个 自动 化 的 客户 端 ， 其 查询 引擎 存在 较 大 延迟 ， 因 此 才 有 
Spark SQL 查询 引擎 。Spark SQL 的 查询 引擎 较 之 Hive 的 HQL 查询 引擎 快 6 倍 左右 (100 
万 条 测试 数据 的 情况 下 )。Spark SQL 底层 使 用 Spark Core 将 数据 从 HDFS 载 入 内 存 ， 然 后 在 
内 存 中 执行 RDD 的 迭代 计算 ; 而 HQL 底层 则 是 使 用 MapReduce 执行 基于 磁盘 的 迭代 计算 。 


16.1.2 Spark SQL 的 重要 功能 


(1) Spark SQL 可 操作 Hive. HBase, MySQL. Oracle, DB2 等 中 的 数据 (可 自 定义 
以 支持 更 多 类 型 的 数据 来 源 )。 

(2) 提升 了 数据 仓库 的 计算 能 力 和 计算 复杂 度 。 

(3) 基于 Spark SQL 推出 的 DataFrame 可 实现 数据 仓库 直接 使 用 机 器 学 习 、 图 计算 等 
复杂 算法 库 深度 数据 挖掘 数据 仓库 。 

(4) Spark SQL (DataFrame, DataSet, Tungsten) 是 数据 仓库 、 数 据 挖 掘 及 其 科学 计 
算 和 分 析 引 擎 工具 。 

传统 关系 型 数据 库 主要 用 于 实时 事务 性 分 析 计 算 。 关 系数 据 库 的 缺点 是 无 法 进行 分 
布 式 计算 和 分 布 式 存储 ， 除 实时 性 事务 分 析 计 算 均 可 使 用 以 下 的 流行 架构 组 合 来 构建 分 析 
架构 : 


Hive (仓库 存储 ) +Spark SQL (高 速 计算 ) +DataFrame (复杂 度 分 析 和 挖掘 ) H[DataSet] 
16.1.3 Spark SQL 的 DataFrame # 4 


Spark SQL 是 基于 DataFrame 实现 的 列 式 查 询 引擎 , 这 是 DataFrame 区 别 于 RDD 的 一 
个 重要 特征 。.R 及 Python 语言 中 都 有 DataFrame. Spark 中 的 DataFrame 作为 一 种 分 布 式 表 ， 
描述 的 二 维 表 中 细 粒 度 地 指定 了 每 个 列 的 名 称 和 类 型 。 因 此 DataFrame 可 优化 到 每 条 记录 
的 列 级 别 。 而 RDD 的 基本 单位 不 是 列 级 别 而 是 行 级 别 ， 因 此 RDD 仅 优化 到 行 级 别 。 数 据 
处 理 与 分 析 在 IT 领域 中 的 阶段 如 下 : 

第 一 个 阶段 ，C/C+++ 文件 存储 。 

第 二 个 阶段 ，J2EE + 数据 库 。 

第 三 个 阶段 : HiveQL + Hadoop. 

第 四 个 阶段 :Spark SQL + Hive. 

第 五 个 阶段 : Spark SQL + DataFrame + Hive. 

第 六 个 阶段 : Spark SQL + DataSet + DataFrame + Hive. 


16.2 Spark SQL 操作 Hive 


关于 Spark SQL 操作 的 视频 讲解 可 扫描 以 下 两 个 二 维 码 观看 。 
16.2.1 添加 配置 文件 ， 便 于 Spark SQL 访问 Hive 仓库 


Vi /software/spark-1.6.2-bin-hadoop2.4/conf/hive-site.xml 
<configuration> 
<property> 
<name>hive.metastore.uris</name> 
svaluesthrift://YunHive: 9083</value> 
</property> 
</configuration> 


WHER: Lik thrift 协议 的 uri 指向 Hive 服务 端 (Hive 的 安装 节点 )。 
16.2.2 安装 JDBC 驱动 


T£ MySQL 的 JDBC 驱动 包 复 制 到 Spark 安装 目录 下 的 lib 子 目 录 下 (便于 连接 MySQL 
数据 库 )。 复 制 驱动 包 的 操作 可 不 做 ， 因 为 Spark 通过 Hive 提供 的 9083 的 thrift 协议 服务 
获取 MySQL 数据 库 中 的 元 数据 ， 所 以 只 需 Hive 服务 端 能 够 连接 MySQL 数据 库 即 可 。 


16.2.3 启动 MySQL 服务 及 其 Hive 的 元 数据 服务 
1. 启动 MySQL 服务 


service mysqld start 
第 
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/etc/init.d/mysqld start 
2. 启动 Hive 元 数据 服务 
nohup hive --service metastore &>metastore.log & 


16.2.4 启动 HDFS 集群 和 Spark 集群 


start-dfs.sh 
start-all.sh 


16.2.5 #44 Spark-Shell 并 测试 
/software/spark-2.1.1/bin/spark-shell --master spark://YunMaster01:7077 
(1) 创建 HiveContext JR, BAL sc 是 SparkContext 类 型 的 对 象 。 
val hiveContext-new org.apache.spark.sql.hive.HiveContext (sc) 
(2) 切换 数据 库 到 Hive. 


hiveContext.sql ("use hive") 
显示 Hive 库 中 的 所 有 表 


hiveContext.sql("show tables") .collect.foreach (Println) 
(3) 执行 数据 查询 并 显示 结果 。 
hiveContext.sql ("select count (*) from t_user") .collect. foreach (println) 


hiveContext.sql("select count (*) from t user where userAge>30") . 


collect.foreach (printin) 
hiveContext.sql ("select count (*) from t_user where userAge>30 and userName 


like '%1i%'"). 
collect.foreach (printin) 


«Miis: 
(1) Spark SQL 和 SparkStreaming 均 基 于 SparkCore 内 核 完成 RDD 计算 。 
(2) SQLContext 是 HiveContext 的 超 接口 ，HiveContext 是 SQLContext 接口 的 Hive 
实现 ( 即 底层 的 数据 仓库 可 使 用 非 Hive 的 其 他 存储 来 实现 )。 


16.3 Spark SQL 操作 HDFS 


Spark SQL 可 直接 读 取 关系 数据 库 中 的 数据 并 将 其 包装 为 DataFrame， 然 后 基于 
DataFrame 注册 一 个 临时 表 ， 根 据 此 临时 表 完 成 SQL 的 分 析 处 理 。 
16.3.1 操作 代码 


Spark SQL 操作 HDES 的 代码 如 下 : 


package com.bunfly.bigdata. spark. sql.cluster: 
import java.io. IOException; 
import java.net.URI; 
import java.net .URISyntaxException; 
import java.sql.Date; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache.spark.SparkConf; 
import org.apache.spark.api.java.JavaRDD; 
import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java. function. Function; 
import org.apache.spark.sql.Dataset; 
import org.apache.spark.sql.Row; 
import org.apache.spark.sql.SQLContext; 
import org.apache.spark.sql.SparkSession; 
import com.bunfly.bigdata.spark.sql.po.User; 
@suppressWarnings ("resource") 
public class RDDToHdfs { 
private static FileSystem fs; 
static{ 
Configuration conf=new Configuration (); 
try { 
fs=FileSystem.get (new URI("hdfs://nsl/"), conf, "hadoop") ; 
} catch (IOException | InterruptedException | URISyntaxException e) { 
e.printStackTrace(); 


5 
public static void main(String[] args) throws IOException ( 
SparkConf conf-new SparkConf (): 
conf.setAppName ("RDD To HDFS Cluster"); 
JavaSparkContext sc-new JavaSparkContext (conf); 
SQLContext sqlContext-new SQLContext (SparkSession.builder(). 
SparkContext (sc.sc()) 
.getorCreate()); 
JavaRDD<String> lineRDD-sc.textFile("/spark/input"); 
JavaRDD<User> userRDD-lineRDD.map (new Function«String,User»()í 
@override 
public User call (string line) throws Exception { 
String[] fields=line.split("\t"); 
Long userId-Long.parseLong(fields[0]); 
String userName=fields[1]; 
Integer weight-Integer.parseInt (fields[2]); 
Date birthday=Date.valueOf (fields[3]); 


return new User (userId, userName, weight, birthday) ; 
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n: 
Dataset«Row» userDataSet-sqlContext.createDataFrame (userRDD, 
User.class); 
userDataSet.createOrReplaceTempView("t user"); 
Dataset<Row> queryDataSet-sqlContext.sql("select * from t user 
where weight>100"); 
JavaRDD<Row> rowRDD-queryDataSet.toJavaRDD(); 
JavaRDD<User> userRDDResult-rowRDD.map (new Function<Row, User» ()( 
GOverride 
public User call(Row row) throws Exception ( 
Long userId-row.getAs ("userId"); 
String userName-row.getAs ("userName"); 
Integer weight-row.getAs ("weight"); 
Date birthday-row.getAs ("birthday"); 
return new User (userId,userName, weight,birthday); 


Di 

Path dist-new Path("/spark/output"); 
if(fs.exists (dist) ) fs.delete (dist, true): 
userRDDResult.saveAsTextFile ("/spark/output"); 


} 
1632 工程 文件 


将 工程 打包 成 JAR 文件 放 入 工程 目录 下 的 dist 目录 下 。 


hadoop@CloudDeskTop bin]$ pwd 
/project/SparkSQL-JAVA/bin 
hadoop@CloudDeskTop bin]$ jar -cvfe ../dist/RDDToHdfs.jar 
com.bnyw.bigdata.spark.sql.cluster.RDDToHdfs com/ 
hadoop@CloudDeskTop bin]$ cd ../dist/ 
hadoop@CloudDeskTop dist]$ pwd 
/project/SparkSQL-JAVA/dist 
hadoop@CloudDeskTop dist]$ 1s 
RDDToHdfs.jar 


16.3.3 ”创建 测试 数据 


hadoop@CloudDeskTop input]5 pwd 
/project/SparkSQL-JAVA/input 
hadoop@CloudDeskTop input]$ 1s 


users 


hadoop@CloudDeskTop input]$ cat users 
1 ligang 118 1982-12-28 
E zhanghua 120 1983-08-04 


zhaoyu 106 1978-04-08 
huanghua 98 1987-08-07 
chenglan 88 1992-07-08 
6 huanghao 115 1996-06-05 
[hadoop@CloudDeskTop input]$ hdfs dfs -put users /spark/input/ 
[hadoop@CloudDeskTop input]$ hdfs dfs -ls /spark/input 
Found 1 items 
-rw-r--r-- 3 hadoop supergroup 150 2017-08-17 11:20 /spark/ 


Oe w 


input/users 
16.3.4 运行 Job 并 提交 到 集群 


[hadoop@CloudDeskTop bin]$ pwd 

/software/spark-2.1.1/bin 
[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 
--class com.bnyw.bigdata.spark.sql.cluster.RDDToHdfs /project/ 
SparkSQL-JAVA/dist/RDDToHdfs.jar 1 
17/08/17 12:53:23 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 
17/08/17 12:53:25 INFO spark.SparkContext: Running Spark version 2.1.1 
17/08/17 12:53:25 WARN spark.SparkContext: Support for Java 7 is deprecated 
as of Spark 2.0.0 
17/08/17 12:53:27 INFO spark.SparkEnv: Registering OutputCommitCoordinator 
17/08/17 12:53:27 INFO util.log: Logging initialized @8820ms 
17/08/17 12:53:28 INFO server.Server: jetty-9.2.z-SNAPSHOT 


16.3.5 查看 运行 结果 


[hadoop@CloudDeskTop input]$ hdfs dfs -ls /spark 
Found 2 items 
drwxr-xr-x  - hadoop supergroup 0 2017-08-17 11:20 /spark/input 
drwxr-xr-x  - hadoop supergroup 0 2017-08-17 11:26 /spark/ output 


[hadoop@CloudDeskTop input]$ hdfs dfs -1s /spark/output 
Found 3 items 


-rw-r--r-- 3 hadoop supergroup 0 2017-08-17 11:26 /spark/ 
output/ SUCCESS 

-rw-r--r-- 3 hadoop supergroup 74 2017-08-17 11:26 /spark/ 
output/part-00000 

-rw-r--r-- 3 hadoop supergroup 26 2017-08-17 11:26 /spark/ 


output/part-00001 
[hadoop@CloudDeskTop input]$ hdfs dfs -cat /spark/output/part-00000 


1  ligang 118 1982-12-28 第 
2  zhanghua 120 1983-08-04 16 
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3 zhaoyu 106 1978-04-08 
[hadoop@CloudDeskTop input]$ hdfs dfs -cat /spark/output/part-00001 


6 huanghao 


115 1996-06-05 


提示 : Spark 处 理 之 后 的 数据 写 入 到 HDFS 集群 。 若 需 将 其 转移 到 关系 数据 库 中 可 启 
动 一 个 定时 任务 并 使 用 Sqoop 工具 完成 。 


16.4 Spark SQL 操作 关系 数据 库 


Spark SQL 可 读 取 关 系数 据 库 中 的 数据 进行 分 析 处 理 ， 需 借助 于 JDBC 协议 和 相应 的 
驱动 来 完成 。 以 下 业务 场景 以 客户 端 本 地 的 数据 通过 Spark SQL 处 理 后 的 结果 写 入 远 端 关 
系数 据 库 中 ， 供 前 端 在 线 事务 系统 使 用 。 


16.4.1 添加 访问 MySQL 的 驱动 包 
在 Eclipse 4.5 中 建立 工程 RDDToJDBC， 并 创建 文件 夹 lib 用 于 放置 第 三 方 驱动 包 。 


[hadoop@CloudDeskTop software]$ cd /project/RDDToJDBC/ 
[hadoop@CloudDeskTop RDDToJDBC]$ mkdir -p dist 
[hadoop@CloudDeskTop RDDToJDBC]$ 1s 

bin dist src 


16.4.2 添加 必要 的 开发 环境 


将 MySQL 的 JAR 包 复制 到 工程 目录 RDDToJDBC 下 的 lib 目录 下 : 


cp -a /software/hive-1.2.2/lib/mysql-connector-java-3.0.17-ga-bin.jar / 


project/RDDToJDBC/lib/ 


将 Spark 的 开发 库 spark 2.1.1 -all 追加 到 RDDToJDBC 工程 的 classpath 路 径 中 去 ， 可 
在 Eclipse 中 通过 添加 用 户 库 的 方式 解决 。 


16.4.3 使 用 Spark SQL 操作 关系 数据 库 


源码 如 下 : 


package com.bnyw.bigdata.spark.rdd.local; 


import 
import 
import 
import 
import 
import 
import 
import 
import 


import 


java. 
java. 
java. 
java. 
java. 


java. 


org. 
org. 
org. 


org. 


apache. 
apache. 
apache. 


apache. 


util.Arrays; 


spark. 
spark. 
spark. 


spark. 


sql.Connection; 

sql .DriverManager; 
sql.PreparedStatement; 
sql.SQLException; 


util.Iterator; 


SparkConf; 
api.java.JavaPairRDD; 
api.java.JavaRDD; 


api.java.JavaSparkContext; 


import org.apache.spark.api.java.function.FlatMapFunction; 
import org.apache.spark.api.java.function.Function2; 
import org.apache.spark.api.java.function.PairFunction; 
import org.apache.spark.api.java.function.VoidFunction; 
import scala.Tuple2; 
@SuppressWarnings ("serial") 
public class WordCount ( 
private static Connection conn; 
private static PreparedStatement pstat; 
static{ 
try { 
Class.forName ("com.mysql.jdbc.Driver") ; 
conn=DriverManager .getConnection ("jdbc:mysql: 
//192.168.37.143:3306/bnyw? 
characterEncoding-utf8", "root", "123456"); 
pstat=conn.prepareStatement ("insert into wordcount (word, 
count) values(?,?)"); 
} catch (Exception e) { 
e.printStackTrace (): 


private static int save (Tuple2<String，Integer> line) throws SQLException{ 
pstat.setstring(1, line. 1); 
pstat.setInt(2, line. 2): 
return pstat.executeUpdate () ; 
5 
private static void saveToDB(JavaPairRDD«String, Integer» pairRDD) 
throws Exception( 
pairRDD.foreach (new VoidFunction<Tuple2<String, Integer?» () ( 
GOverride 
public void call(Tuple2«String, Integer» line) throws Exception { 
save (line); 


n: 
) 
public static void main(String[] args) throws Exception ( 
SparkConf conf-new SparkConf (): 
conf.setAppName ("Local Java Spark RDD"); 
conf.setMaster ("local"); 
JavaSparkContext sc-new JavaSparkContext (conf); 
JavaRDD«String» lineRdd-sc.textFile("/home/hadoop/data/srcdata/ 
wordcount/", 1); 第 
JavaRDD<String> wordRdd=lineRdd.flatMap(new FlatMapFunction 16 


章 


«String, Strings ()( 
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@override 

public Iterator<String> call(String line) throws Exception { 
String[] wordArr-line.split(" "); 
return Arrays.asList(wordArr).iterator(); 


):; 
JavaPairRDD<String, Integer» wordTupleList=wordRdd.mapToPair (new 


PairFunction< 
String, String, Integer>() { 
@override 
public Tuple2<String, Integer> call(String word) throws 


Exception { 
return new Tuple2<String, Integer» (word, 1); 


Di 
JavaPairRDD<String, Integer» wordGroupList=wordTupleList. 


reduceByKey (new 
Function2<Integer, Integer, Integer>() { 
@override 
public Integer call (Integer prev, Integer next) throws Exception ( 
return prev+next; 


}); 
saveToDB (wordGroupList) : 


) 
16.44 324645 MySQL 数据 库 服务 


1， 局 动 MySQL 数据 库 服 务 


root@DB03 ~]# cd /software/mysq1-5.5.32/multi-data/3306/ 
root@DB03 3306]# 1s 

data my.cnf my.cnf.bak mysqld 

root@DB03 3306]# ./mysqld start 

Starting MySQL.. 


2. dor bunfly 库 


root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "show 


databases;" 


information schema | 
hive | 
mydb | 


mysql 
performance schema 
test 


root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "create 
database bunfly character set utf8," 

root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "show 
databases;" 


information schema 
bunfly 

hive 

mydb 

mysql 

performance schema 
pest: 


3 建立 wordcount 表 


root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "create 
table if not exists bunfly.wordcount (wid int(11) auto increment primary 
key, word varchar(30),count int (3))engine-myisam charset=utf8;" 

root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "desc 
bunfly.wordcount;" 


+------- 十 一 一 一 一 一 一 一 一 一 一 一 一 4------ + 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
Field | Type | Null | Key | Default | Extra | 
+------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 pa + 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
wid | int(11) | NO | PRI | NULL | auto increment 
word | varchar(30) | YES | | NULL | | 
count | int (3) | YES | | NULL 1 | 
+------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 4------ + 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
目前 数据 库 表 中 不 存在 数据 。 


root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "select 
* from bnyw.wordcount;" 


16.4.5 准备 Spark SQL 源 数 据 


hadoop@CloudDeskTop bin]$ 1s ~/data/srcdata/wordcount/ 


words 第 
hadoop@CloudDeskTop bin]$ cat ~/data/srcdata/wordcount/words 16 
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16.4.6 


my name is lixiang 
my 
my 


my 


运行 Spark AY 


age is 36 
height is 1.67 
weight is 120 


在 Eclipse 4.5 中 直接 运行 Spark 代码 ， 观 察 Eclipse 控制 台 输 出 。 


root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "select 
* from bunfly.wordcount;" 
+----- 十 一 一 一 一 一 一 一 一 一 4------- * 
wid | word | count | 
+----- 二 一 一 一 一 一 一 一 一 一 4------- * 
jt Tos | 4 | 
2 name | ak | 
3 1.67 | a 
4 36 | ali 
5 120 | mu 
6 lixiang | a 
7 | height | ab | 
8 | age | 1 | 
9 | my l ca 
10 | weight | Ei 
+----- + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 
提示 : 上 述 Spark SQL 计算 客户 端 本 地 数据 ， 然 后 将 计算 结果 输出 到 关系 数据 库 


MySQL。 接 下 来 开始 讲解 Spark SQL 处 理 HDFS 分 布 式 存储 中 的 数据 ， 并 将 其 写 出 到 远 端 


关系 数据 库 MySQL 中 。 


16.4.7 创建 dist 文件 夫 
在 Eclipse 4.5 中 的 工程 RDDToJDBC 下 创建 一 个 dist 文件 夹 ， 用 于 放置 打包 文件 。 


[hadoop@CloudDeskTop 
[hadoop@CloudDeskTop 
[hadoop@CloudDeskTop 


software]$ cd /project/RDDToJDBC/ 
RDDToJDBC]$ mkdir -p dist 
RDDToJDBC]$ 1s 


bin dist sre 


16.48 ”安装 数据 库 驱 动 


将 关系 数据 库 的 驱动 包 放 置 到 Spark 安装 目录 下 的 jars 目录 下 。 


cp -a /software/hive-1.2.2/lib/mysql-connector-java-3.0.17-ga-bin.jar / 
software/spark-2.1.1/jars/ 

scp -r /software/hive-1.2.2/1ib/mysql-connector-java-3.0.17-ga-bin.jar 
master01:/software/spark-2.1.1/jars/ 


scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar 


master02:/software/spark-2.1.1/jars/ 


scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar 


slave01:/software/spark-2.1.1/jars/ 


scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar 


slave02:/software/spark-2.1.1/jars/ 


scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar 


slave03:/software/spark-2.1.1/jars/ 


16.4.9 基于 集群 操作 
基于 集群 操作 的 源码 如 下 : 


package com.bunfly.bigdata.spark.rdd.cluster; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


java.sql.Connection; 

java.sql.DriverManager; 
java.sql.PreparedStatement; 
java.sql.SQLException; 

java.util.Arrays; 

java.util.Iterator; 

org.apache.spark.SparkConf; 
org.apache.spark.api.java.JavaPairRDD; 
org.apache.spark.api.java.JavaRDD; 
org.apache.spark.api.java.JavaSparkContext; 
org.apache.spark.api.java.function.FlatMapFunction; 
org.apache.spark.api.java.function.Function2; 
org.apache.spark.api.java.function.PairFunction; 
org.apache.spark.api.java.function.VoidFunction; 
scala.Tuple2, 


@suppressWarnings ("serial") 


public 


class WordCount { 


private static int count; 


private static Connection conn; 


private static PreparedStatement pstat; 


static{ 


try 
Class.forName ("com.mysql.jdbc.Driver"); 


conn-DriverManager.getConnection ("jdbc:mysql:// 
192.168.37.143:3306/bnyw? characterEncoding=utf8", 


"root", "123456"); 


pstat-conn.prepareStatement ("insert into wordcount (word, count) 


values(?,?)"); 


) catch (Exception e) ( 


e.printStackTrace(); 
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conf.setAppName ("Cluster Java Spark RDD"); 
JavaSparkContext sc=new JavaSparkContext (conf) ; 
JavaRDD<String> lineRdd=sc.textFile("/spark/input", 1); 
JavaRDD<String> wordRdd=lineRdd.flatMap(new FlatMapFunction 
«String, Strings ()( 
GOverride 
public Iterator<String> call(String line) throws Exception { 
String[] wordArr-line.split(" "); 
return Arrays.asList (wordArr).iterator(); 


}); 
JavaPairRDD<String, Integer> wordTupleList=wordRdd.mapToPair (new 
PairFunction<String, String, Integer» ()( 
GOverride 
public Tuple2«String, Integer» call(String word) throws Exception ( 
return new Tuple2«String, Integer» (word, 1); 


Di 
JavaPairRDD<String, Integer> wordGroupList=wordTupleList. 
reduceByKey (new 
Function2«Integer, Integer, Integer>() { 
@override 
public Integer call (Integer prev, Integer next) throws Exception ( 
return prev+next; 


Di 
saveToDB (wordGroupList) : 


} 


在 集群 模式 下 ，Spark 操作 关系 数据 库 通过 启动 一 个 Job 来 完成 ， 而 启动 Job 则 通过 
RDD 操作 触发 。 因 此 在 Spark 集群 模式 下 其 关系 数据 库 的 所 有 操作 必须 位 于 RDD 操作 级 
别 才 有 效 ， 否 则 数据 的 操作 无 法 影响 关系 数据 库 。 而 RDD 级 别 之 外 的 操作 都 属于 Spark 
Core 的 客户 端 Driver 级 别 〈 如 Spark SQL 和 SparkStreaming)。 上 述 代 码 中 ， 只 有 了 RDD 对 
象 被 foreachXXX 时 才 会 进入 到 SparkCore 级 别 的 Job 操作 。RDD 之 外 的 操作 是 Driver 级 
别 的 操作 , 无 法 在 基于 RDD 级 别 的 SparkCore 操作 过 程 中 启动 Job, 其 数据 均 被 封装 成 Job 
提交 到 集群 , 并 在 集群 的 各 个 节点 执行 分 配 的 Task。 数据 在 各 Task 节点 之 间 传 递 需 数据 本 
身 支 持 可 序列 化 ， 因 此 在 Spark 应 用 中 高 频率 出 现 的 内 部 类 对 象 ( 比 如 上 述 VoidFunction) 
都 需要 支持 可 序列 化 ， 即 在 这 些 内 部 类 对 象 中 出 现 的 成 员 需 要 可 序列 化 ， 因 此 在 内 部 类 对 
象 上 下 文中 编写 代码 时 须 注意 不 能 出 现 不 可 序列 化 的 对 象 或 引用 《如 不 能 出 现 基 于 瞬 态 的 
流 化 对 象 Connection、Statement、Thread 等 )， 即 在 内 部 类 对 象 上 下 文中 出 现 的 对 象 引用 须 
实现 java.io.Seralizable 接口 。 
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16.410 ”打包 工程 代码 到 dist 目录 下 


[hadoop@CloudDeskTop bin]$ pwd 

/project/RDDTOJDBC/bin 
[hadoop@CloudDeskTop bin]$ 1s 

com 
[hadoop@CloudDeskTop bin] $ jar -cvfe /project/RDDToJDBC/dist/RDDToJDBC. jar 
com.bnyw.bigdata.spark.rdd.cluster.WordCount com/ 
[hadoop@CloudDeskTop bin]$ cd ../dist/ 
[hadoop@CloudDeskTop dist]$ 1s 

RDDTOJDBC. jar 


16.4.11 启动 集群 并 提交 Job 应 用 
1， 局 动 三 台 Slave 节点 的 Zookeeper 进程 


[hadoopeslave01 software]$ cd /software/zookeeper-3.4.10/bin/ && ./ 
zkServer.sh start && 

cd - && jps 
[hadoop@slave02 software]$ cd /software/zookeeper-3.4.10/bin/ && ./ 
zkServer.sh start && cd - && jps 

[hadoop@slave03 software]$ cd /software/zookeeper-3.4.10/bin/ && ./ 
zkServer.sh start && cd - && jps 


2. 启动 HDFS 集群 


[hadoop@master01 software]$ start-dfs.sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-namenode-master01.out 

master02: ssh: connect to host master02 port 22: No route to host 
slave02: starting datanode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-datanode-slave02.out 

slave01: starting datanode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-datanode-slave01.out 

slave03: starting datanode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-datanode-s1lave03.out 

Starting journal nodes [slave01 slave02 slave03] 

slave01: starting journalnode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-journalnode-slave01.out 

slave02: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave02.0out 
slave03: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave03.out 


3. 启动 Spark 集群 


[hadoop@master01 sbin]$ ./start-slaves.sh 


slave02: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/1o0gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave02.out 

slave03: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10ogs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave03. out 

slave01: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave01. out 

slave02: failed to launch: nice -n 0 /software/spark-2.1.1/bin/spark-class 
org.apache.spark.deploy.worker.Worker --webui-port 8081 spark:// 
master01:7077 

slave02: full log in /software/spark-2.1.1/10gs/spark-hadoop-org.apache. 
Spark.deploy.worker.Worker-1-slave02.out 

slave01: failed to launch: nice -n 0 /software/spark-2.1.1/bin/spark-class 
org.apache.spark.deploy.worker.Worker --webui-port 8081 spark:// 
master01:7077 

slave01: full log in /software/spark-2.1.1/10gs/spark-hadoop-org.apache. 
Spark.deploy.worker.Worker-1-slave0l.out 


4. fi SparkSQL 客户 端 节点 提交 Spark 应 用 
1) 将 数据 库 中 的 旧 数 据 删除 


root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e 
"truncate table bunfly.wordcount;" 

root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "select 
* from bunfly.wordcount;" 


2) 准备 源 数 据 


hadoop@CloudDeskTop bin]$ 1s ~/data/srcdata/wordcount/ 
words 
hadoop@CloudDeskTop bin]$ cat -/data/srcdata/wordcount/words 


my name is lixiang 

my age is 36 

my height is 1.67 

my weight is 120 
[hadoop@CloudDeskTop bin]$ hdfs dfs -put ~/data/srcdata/wordcount/words / 
spark/input/ 
[hadoop@CloudDeskTop bin]$ hdfs dfs -1s /spark/input 

Found 1 items 


-rw-r--r-- 3 hadoop supergroup 67 2017-08-20 06:46 / 
spark/input/words 
[hadoop@CloudDeskTop bin]s hdfs dfs -cat /spark/input/words 第 
my name is lixiang 
my age is 36 16 
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my height is 1.67 
my weight is 120 


3) 提交 Spark 应 用 


[hadoop@CloudDeskTop lib]$ cd /software/spark-2.1.1/bin/ 
[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 
--class com.bnyw.bigdata.spark.rdd.cluster.WordCount /project/ 
RDDTOJDBC/dist/RDDToJDBC. jar 

17/08/20 17:20:22 INFO spark.SparkContext: Running Spark version 2.1.1 
17/08/20 17:20:22 WARN spark.SparkContext: Support for Java 7 is deprecated 
as of Spark2.0.0 

17/08/20 17:20:23 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


17/08/20 17:20:26 INFO spark.SparkEnv: Registering OutputCommitCoordinator 


17/08/20 17:20:26 INFO util.log: Logging initialized @5575ms 
17/08/20 17:20:26 INFO server.Server: jetty-9.2.z-SNAPSHOT 


1642 检查 关系 数据 库 中 是 否 已 有 数据 


root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -e "select 
* from bnyw.wordcount;" 
+----- 4+--------- 4+------- + 
wid | word | count | 
+ 一 一 一 一 + 一 一 一 一 一 一 一 一 一 pa 十 
Tais | 4 | 
2 | name | it 
av oam | EI 
4| 36 | LI 
Sh || 120 | T 
6 | lixiang | qu 
7 | height | ab |) 


16.5 “习题 与 思 


1. 通过 Spark SQL 创建 学 生 表 、 课 程 表 、 成 绩 表 和 老师 表 ， 学 生 表 和 成 绩 表 的 数据 


结构 分 别 如 表 16.1 和 表 16.2 所 示 。 并 导入 数据 ， 数 据 内 容 如 16.3 RAM 16.4 所 示 。 


表 161 
字段 名 数据 类 型 AAAS 含义 
Sno Varchar2(3) f 学 号 
Sname Varchar2(8) 否 姓名 
Ssex Varchar2(2) 否 性 别 
Sbirthday Varchar2(8) 是 生日 
SClass Varchar2(5) 是 班级 


Cname 


Degree 


表 


Sno 


16.3 


20173598 
20173820 
20173743 


表 


wm 上 wb 


16.4 

Sno 

20173598 
20173598 
20173598 
20173820 
20173820 
20173820 
20173743 
20173743 
20173743 


查询 Student 表 中 的 所 有 记录 的 Sname. Ssex 和 Class 列 。 


数据 类 型 
Varchar2(3) 
Varchar2(5) 
Number(4.1) 


AAAS 
否 
否 
是 
Ssex Sbirthday 
19940808 
女 19941209 
19931230 
Cname 
计算 机 基础 
英语 
数学 
计算 机 基础 
英语 
数学 
计算 机 基础 
英语 
数学 


查询 有 成 绩 不 及 格 的 所 有 学 生 。 


查询 每 门 课程 的 平均 成 绩 。 


按 Sno 字段 查询 所 有 学 科 的 总 成 绩 。 


含义 
学 号 (外 健 ) 
课程 
成 绩 


SClass 


计算 机 一 班 
计算 机 一 班 
计算 机 二 班 


Degree 
58 
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第 17 章 Spark Streaming 


17.1 架构 与 原理 


关于 Spark Streaming 架构 与 原理 的 视频 讲解 可 扫描 二 维 码 观 看 。 
ENSIS Sayers 


: E n 
e 


Er 
17.1.1 Spark Streaming È t 5 ih # 4E 


Spark Streaming 是 从 间 际 (间隙 时 间 可 通过 程序 设 定 ) 拉 取 数据 源 (如 Flume, KafKa 
等 ) 中 的 数据 来 进行 分 析 和 处 理 的 。 每 次 拉 取 的 数据 都 对 应 一 个 处 理 单位 ， 处 理 单位 即 数 
据 片 段 ， 又 称 为 离散 数据 流 〈 简 称 为 离散 流 )。 每 次 处 理 的 数据 片段 会 被 Spark Streaming 
包装 成 不 可 变 的 RDD 推送 到 Spark 内 核 进 行 处 理 ， 编 写 的 Spark Streaming 应 用 代码 基于 
每 次 处 理 的 单个 数据 片段 来 执行 Jb， 即 一 个 数据 片段 对 应 一 个 RDD， 而 一 个 RDD 则 对 
应 一 个 被 Spark Streaming 封装 的 Job 实例 ，RDD 的 模板 类 称 为 离散 流 类 即 DStream。 

实际 上 ，Spark Streaming 是 针对 流 式 处 理 的 特征 对 Spark 内 核 的 一 种 RDD 封装 ， 以 时 
间 为 分 片 将 拉 取 的 离散 数据 流 封 装 为 一 系列 独立 的 RDD 实例 , 封装 的 离散 RDD 之 间 彼 此 
独立 ， 相 互 之 间 无 任何 关系 〈 离 散 数据 流 是 一 种 无 状态 的 流 )。 

包装 离散 RDD 为 Job 是 Spark Streaming 框架 根据 设 定 的 间隔 时 间 产 生 的 ， 即 每 隔 一 
段 时 间 《〈 可 程序 设 定 ) 产生 一 个 RDD 和 Job。 编 写 的 代码 是 Job 的 模板 ，Spark Streaming 
框架 是 根据 编写 的 Job 模板 类 产生 Job 实例 ， 并 运行 Job 实例 处 理 RDD 中 的 数据 。 

Streaming 推送 到 Spark 内 核 的 RDD 计算 完成 后 可 将 其 存储 到 中 间 件 、 缓 存 、 数 据 库 
或 HDFS 分 布 式 存储 系统 中 。 


17.1.2 Spark Streaming 的 应 用 场景 


Spark Streaming 与 Spark SQL 相同 , 均 属于 Spark 生态 圈 中 的 子 系统 ,是 建立 在 Spark 
内 核 基础 之 上 的 应 用 框架 。Spark Streaming 将 接收 到 的 离散 数据 流转 换 为 RDD 实例 ， 并 
将 其 封装 为 Job 应 用 提交 给 底层 的 Spark 内 核 进行 处 理 。 离 散 流 中 的 每 一 个 RDD 实例 均 对 
应 一 次 Job 的 提交 和 执行 。 对 于 具有 离散 流 特征 的 数据 处 理 过 程 适合 于 分 析 在 线 实时 数据 。 
数据 在 前 端 系统 中 一 旦 产生 则 立即 将 其 推送 至 Spark Streaming 处 理 ， 并 将 处 理 后 的 数据 反 
馈 给 前 端 系统 。 如 此 前 端 系统 便 可 对 线 上 产生 数据 实时 分 析 和 反馈 处 理 。 目 前 ， 实 时 分 析 
技术 在 电 商 领域 中 应 用 广泛 。 


17.2 KafKa 中 间 件 


KafKa 是 由 LinkedIn 开发 的 一 个 分 布 式 消息 系统 ， 使 用 Scala 编写 ， 由 于 可 水 平 扩展 
和 高 吞吐 率 被 广泛 使 用 。 目 前 开源 分 布 式 处 理 系统 如 Cloudera. Apache Storm. Spark 趋向 
于 支持 与 KafKa 的 集成 。 


17.2.1 KafKa 的 特点 


A) 低 延 迟 、 稳 定 可 靠 的 数据 流传 送 。 

(2) 副本 机 制 实现 了 集群 的 容错 能 力 ， 同 时 使 用 稳定 的 Zookeeper 集群 管理 KafKa 集 
群 的 元 数据 。 

(3) 实现 了 主题 、 分 区 及 其 队列 模式 (消息 队列 MQ(Message Queue)) 以 及 生产 者 、 
消费 者 构架 模式 。 

(D 持久 化 存储 消息 数据 流 至 磁盘 ， 同 时 启用 基于 操作 系统 内 核 的 ZeroCopy 技术 ， 
提升 数据 传输 VO 效率 。 


17.2.2 ZeroCopy 技术 


1. 传统 VO 操作 技术 

协议 引擎 (基于 磁盘 VO 或 网 络 VO 的 协议 ) 一 操作 系统 内 核 一 用 户 应 用 层 一 操作 系 
统 内 核 一 协议 引擎 (基于 磁盘 VO 或 网 络 VO 的 协议 )。 

2. ZeroCopy 操作 技术 

协议 引擎 (基于 磁盘 VO 或 网 络 VO 的 协议 ) 一 操作 系统 内 核 一 协议 引擎 (基于 磁盘 
VO 或 网 络 VO 的 协议 )。 

用 户 态 切 换 至 内 核 态 需 消耗 系统 资源 ， 使 用 ZeroCopy 消除 多 余 的 缓冲 副本 将 提升 数 
据 传 输 性 能 。 实 际 上 NIO 技术 中 FileChannel 的 transferTo 接口 借助 ZeroCopy 技术 提升 性 
能 〈 消 除了 缓冲 区 之 间 的 数据 副本 ， 提 升 了 VO 性 能 )。 用 户 应 用 层 的 transferTo 方法 调用 
仅 发 送 了 一 个 内 核 指令 来 完成 操作 ， 此 操作 并 不 涉及 数据 从 操作 系统 内 核 流入 到 用 户 应 用 
层 ， 因 此 避免 了 系统 内 核 缓 冲 区 与 用 户 应 用 缓冲 区 之 间 的 相互 数据 复制 。 但 如 果 用 户 应 用 
层 涉及 数据 操作 则 无 法 避免 数据 流入 到 用 户 应 用 层 ， 此 时 必定 存在 内 核 缓冲 区 到 用 户 应 用 
缓冲 区 之 间 的 数据 复制 过 程 。 


17.2.3 KafKa 的 通信 和 原理 


生产 者 组 件 和 消费 者 组 件 均 可 连接 到 KafKa 集群 , 而 KafKa 被 认为 是 组 件 通信 之 间 所 
使 用 的 一 种 消息 中 间 件 。Topic 表示 分 类 主题 ， 生 产 者 将 数据 主动 推送 到 KafKa 集群 中 的 
某 个 主题 类 别 之 下 ， 消 费 者 组 件 主动 到 KafKa 集群 中 拉 取 数据 Topic 主题 和 Partition 分 区 
均 为 KafKa 定义 的 用 于 抽象 集群 数据 的 一 种 逻辑 存储 结构 。 主 题 和 分 区 的 概念 均 为 针对 整 
个 集群 定义 的 一 种 抽象 概念 ， 而 非 针对 某 个 具体 的 KafKa 节点 。KafKa 在 生产 环境 上 应 用 
的 最 佳 实践 架构 是 Flume+KafKa+Spark Streaming. 
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17.24 KafKa 的 内 部 存储 结构 


KafKa 内 部 分 为 很 多 Topic( 一 种 高 度 抽象 的 数据 结构 )， 每 个 Topic 又 被 分 为 很 多 分 
区 (partition)， 每 个 分 区 中 的 数据 按 队 列 模式 进行 编号 存储 。 被 编号 的 日 志 数 据 称 为 此 日 


志 数 据 块 在 队列 中 的 偏 移 量 〈offset)， 偏 移 量 越 大 的 数据 块 越 新 ， 即 越 靠近 当前 时 间 。 
17.2.5 KafKa 的 下 载 
1. 准备 工作 


于 KafKa 是 运行 在 JVM 平台 上 的 一 款 中 间 件 ， 因 此 安装 KafKa 之 前 须 首先 安装 
JDK. 由 十 KafKa 使 用 Scala 语言 开发 , 在 运行 之 前 需 借助 Scala 的 编译 器 来 完成 源码 编译 ， 
因此 在 安装 KafKa 之 前 还 需 安装 Scala. KF IDK 与 Scala 的 安装 可 参考 Hadoop 环境 搭建 
相关 章节 。 

2. Zookeeper 的 安装 

Ti KafKa 需 以 集群 方式 运行 ， 则 KafKa 需 借助 Zookeeper 完成 元 数据 管理 。KafKa 中 
间 件 的 集群 属于 无 中 心 化 的 集群 模式 ， 管 理 KafKa 的 Zookeeper 自身 需 实现 高 可 靠 能 力 。 
因此 管理 KafKa 集群 的 Zookeeper 须 以 集群 方式 运行 ,在 安装 KafKa 之 前 需 构建 Zookeeper 
集群 。 关 于 Zookeeper 集群 的 搭建 可 参考 Hadoop 相关 章节 。 

3. 下 载 KafKa 安装 包 

最 新 版 本 的 KafKa 安装 包 可 在 官网 Chttp://kafka.apache.org/downloads.html) 下载。 最 
新 版 本 的 安装 包 须 与 当前 系统 中 的 Scala 版 本 匹配 ， 本 书 采 用 kafka 2.10-0.9.0.1.tgz 版 本 。 


17.2.6 KafKa 集群 搭建 
1. 在 所 有 Slave 节点 上 安装 KafKa 


tar -zxvf kafka 2.10-0.9.0.1.tgz -C /software/ 


提示 : 为 完成 KafKa 在 后 台 执 行 , 可 下 载 slf4j-nop 组 件 ， 并 将 KafKa 的 后 台 执行 依赖 
包 复制 至 kafka 2.10-0.9.0.1/libs 目录 。 
2. 在 所 有 的 Slave 节点 上 配置 系统 环境 变量 


Vi /etc/profile 
配置 KafKa 的 安装 目录 : 


export KAFKA HOME-/software/kafka 2.10-0.9.0.1 
PATH=$PATH:$KAFKA HOME/bin 
source /etc/profile 


3. 配置 KafKa 
vi /software/kafka 2.10-0.9.0.1/config/server.properties 


配置 节点 标识 : 


broker. id-0 


配置 Zookeeper 集群 : 


zookeeper.connect-YunSlave01:2181,YunSlave02:2181,YunSlave03:2181 


提示 : 上 述 配 置 以 Slave01 节点 为 例 讲 解 配置 ， 其 他 两 个 Slave 节点 上 的 brokerId 值 必 
须 取 不 同 值 。 


17.2.7 启动 并 使 用 KafKa 集群 
1. 启动 Zookeeper 集群 


cd /software/zookeeper-3.10/bin 
./zkServer.sh start 


jps 
c 


2. Kid] KafKa 集群 


cd /software/kafka 2.10-0.9.0.1/bin 

nohup ./kafka-server-start.sh ../config/server.properties & 
jps 

edis 


3. 创建 主题 


./kafka-topics.sh --create --zookeeper YunSlave01:2181, 
Yunslave02:2181, YunSlave03:2181 --replication-factor 3 --partitions 1 
--topic HelloKafka 


参数 解释 : 

--zookeeper: 用 于 指定 创建 的 主题 信息 需 存储 到 的 ZK 集群 节点 列表 。 
--replication-factor: 用 于 指定 主题 目录 的 副本 数量 ， 其 中 副本 包括 主题 下 的 所 有 数据 。 
--partitions: 用 于 指定 创建 的 主题 下 的 分 区 数量 。 

--topic: 用 于 指定 创建 的 主题 名 称 。 

4. 查看 KafKa 主题 


./kafka-topics.sh --describe --zookeeper YunSlave01:2181, YunSlave02:2181, 
YunSlave03:2181 --topic HelloKafka 


提示 : 连接 到 ZK 集群 ， 并 从 中 提取 KafKa 集群 中 指定 的 主题 目录 的 描述 信息 。 
5. 启动 KafKa 生产 者 


./kafka-console-producer.sh --broker-list YunSlave01:9092,YunSlave 
02:9092,YunSlave03:9092 --topic HelloKafka * 
this is first test! 


this is second test02! 
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提示 : 最 后 两 行 代 表 生 产 者 需 将 其 发 送 到 KafKa 集群 的 数据 。 此 处 假设 KafKa 集群 与 
Zookeeper 集群 均 安 装 在 YunSlave 的 三 台 节 点 上 ， 其 中 : 

--broker-list: 用 于 指定 KafKa 集群 节点 列表 。 

--topic: 用 于 指定 数据 存储 到 KafKa 集群 的 主题 目录 。 

6. 启动 KafKa 消费 者 

-/kafka-console-consumer.sh --zookeeper YunSlave01:2181,Yunslave02:2181, 

YunSlave03:2181 --from-beginning --topic HelloKafka 


提示 : 上 述 消费 者 命令 启动 后 会 立即 从 KafKa 集群 中 取出 数据 并 在 控制 台 打 印 。 
消费 者 通过 ZK 集群 中 提供 的 KafKa 节点 信息 连接 到 KafKa 集群 ， 其 中 : 
--topic: 用 于 指定 从 KafKa 集群 提取 数据 的 主题 目录 。 
WEE: 
(1) kafka-console-producer.sh 和 kafka-console-consumer.sh 均 为 用 于 测试 KafKa 4942 
制 台 工具 。 
(2) 由 于 KafKa 是 一 个 消息 中 间 件 ， 具 有 数据 存储 和 缓冲 的 作用 ， 因 此 生产 者 和 消 
费 者 之 间 可 任意 启动 ， 即 生产 者 和 消费 者 之 间 并 没有 直接 构成 通信 。 


17.2.8 ”停止 KafKa 集群 
停止 Kafga 集群 需 分 别 到 每 个 KafKa 节点 执行 以 下 命令 来 停止 每 个 节点 上 的 Kafka 进程 。 


cd /software/kafka 2.10-0.9.0.1/bin 
./kafka-server-stop.sh 


停止 之 后 使 用 jps 命令 查看 ， 发 现 Kafka 进程 消失 : 

jps 
17.2.9 KafKa 集成 Flume 

(1) 如 需要 在 KafKa 中 集成 Flume， 可 先 搭建 Flume 集群 。 

(2) 在 KafKa 集群 中 集成 Flume 须 使 用 KafKa 的 Flume 插件 ， 此 插件 在 对 应 的 KafKa 
版 本 通常 都 有 实现 。Flume 作为 KafKa 的 前 端 生产 者 对 接 到 KafKa 集群 中 ， 在 完成 对 接 时 


只 须 配 置 Flume 的 Sink 组 件 即 可 。 
(3) KafKa 集成 Flume 集群 的 Sink 组 件 配置 示例 : 


producer.sources.s.type = spooldir 

producer.sources.s.spoolDir = /home/hadoop/dir/logdfs 
producer.sinks.r.type = org.apache.flume.plugins.KafkaSink 
producer.sinks.r.metadata.broker.list-YunSlave01:9092,YunSlave02:9092,Y 
unSlave03:9092 


producer.sinks.r.partition.key-0 


producer.sinks.r.partitioner.class-org.apache.flume.plugins. 
SinglePartition 


producer.sinks.r.serializer.class-kafka.serializer.StringEncoder 


producer.sinks.r.request.required.acks-0 


producer.sinks.r.max.message.size-1000000 


producer.sinks. 


i5 

£ 

If 
producer.sinks.r.producer.type-sync 

r.custom.encoding-UTF-8 

E 


producer.sinks.r.custom.topic.name=HelloKafka 


提示 : 

© 关于 Flume 的 相关 安装 和 使 用 请 自行 参考 Hadoop 相关 章节 。 

@ 在 集成 Flume 的 KafKa 集群 中 须 同 时 启动 Flume 集群 和 KafKa 集群 。 

© 在 大 规模 的 数据 处 理 和 分 析 场 景 下 , 使 用 Flume+KafKa 完成 数据 收集 是 最 佳 实践 。 


17.3 Socket 事件 流 操作 


17.3.1 netcat 网 络 Socket 控制 台 工 具 

netcat 是 一 款 基 于 Socket 的 控制 台 网 络 通信 工具 〈 简 称 nc)， 它 同时 具备 绑 定 服务 端 
和 启动 客户 端的 能 力 。 服 务 端 负责 将 控制 台 输 入 的 数据 通过 Socket 传送 到 连接 此 服务 端的 
客户 端 控制 台 并 将 其 显示 出 来 ， 其 通信 原理 如 图 17.1 所 示 。 


192.168.37.153 
输出 数据 anma 输入 数据 
ne 客户 中 nc 服务 中 
连接 192.168.37.153 9999 Console 
nc 192.168.37.153 9999 nc-1 9999 


图 171 


通常 Linux 系统 安装 完毕 nc 命令 就 已 存在 。 需 要 在 安装 Linux. 系统 时 选中 安装 网 络 测 
ATA. 
A) 启动 nc 服务 端 ， 并 绑 定 当前 主机 的 9999 端口 。 


ne =i 9999 
(2) 启动 nc 客户 端 ， 并 连接 到 端口 为 9999 的 nc 服务 端 。 
ne 192.168.37.153_9999 


提示 : 如 nc 客户 端 主动 断 开 连 接 , 则 nc 服务 端 进程 随 之 结束 。 在 后 续 Spark Streaming 
测试 中 ， 其 Spark Streaming 端 充 当 nc 客户 端的 角色 。 
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(3) 运行 Spark 官方 提供 的 Spark Streaming 样 例 。 
关闭 nc 客户 端 并 启动 nc 服务 端 ， 同 时 在 控制 台 输 入 如 下 命令 运行 样 例 测试 。 Spark 
Streaming 的 运行 过 程 如 下 : 


./run-example org.apache.spark.examples.streaming.NetworkWordCount 
localhost 9999 


运行 命令 解释 : 

上 述 命 令 表 示 Spark Streaming 将 通过 主动 连接 localhost 9999 主机 服务 进程 来 读 取 ( 拉 
HO 需 处 理 的 数据 。 若 无 法 连接 给 定 的 主机 进程 服务 或 已 连接 但 无 法 读 取 到 数据 ， 将 输出 
室 的 处 理 结 果 。 未 读 取 到 数据 是 否 需 要 启动 Job 来 完成 空 处 理 取决 于 Spark Streaming 程序 。 

Spark Streaming 与 Strom 相同 ， 均 为 通过 一 定 的 时 间 间 隔 到 给 定 的 数据 源 。 通 常 与 之 
配合 的 数据 源 是 KafKa 集群 ， 其 数据 来 自 于 如 Flume、 电 商 应 用 、 终 端 设备 等 其 他 终端 ， 
KafKa 从 这 些 终 端 主动 拉 取 数据 ， 然 后 执行 统计 分 析 。Spark Streaming 拉 取 一 次 数据 便 统 
计 一 次 ， 这 种 统计 模式 取决 于 应 用 程序 本 身 。 

Spark Streaming 与 Strom 相同 ， 一 旦 启动 便 不 会 停止 ， 这 是 流 式 处 理 所 具 备 的 一 般 
特征 。 


17.3.2 基于 本 地 的 Spark Streaming 流 式 数 据 分 析 示 例 


1. 场景 描述 

通过 间 际 扫描 Socket 端口 源 数 据 , 并 将 拉 取 到 的 数据 放置 于 Spark Streaming 控制 台 打 
印 出 来 。 

2. Spark Streaming 扫描 Socket 端口 

源码 实现 如 下 : 


package com.bnyw.bigdata.spark.streaming.local; 
import org.apache.spark.SparkConf; 
import org.apache.spark.api.java.JavaRDD; 
import org.apache.spark.api.java.function.VoidFunction; 
import org.apache.spark.streaming.Durations; 
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream; 
import org.apache.spark.streaming.api.java.JavaStreamingContext; 
@suppressWarnings ("unchecked") 
public class SocketToPrint { 
public static void main(String[] args) throws InterruptedException { 
SparkConf conf=new SparkConf (): 
conf.setMaster ("local [2]"); 
conf .setAppName ("WordCountOnLine") ; 
JavaStreamingContext jsc=new JavaStreamingContext (conf, 
Durations.seconds (5) ); 
JavaReceiverInputDStream«String» JobLines-jsc. socketTextStream ( 
"CloudDeskTop", 9999) ; 
JobLines.foreachRDD (new VoidFunction<JavaRDD<String>> () { 
@override 


public void call(JavaRDD<String> javaRDD) throws Exception { 
long size=javaRDD.count () : 
System.out.println("----- foreachRDD-call-collection- 
size:"4sizes"------- "ys 
javaRDD. foreach (new VoidFunction«String»()( 
@override 
public void call (string line) throws Exception { 
System.out.println (line), 


} 
)n: 
Se scant) ir 
System. out .print1n ("-------- already start--------- zy 
jsc.awaitTermination(); 
System.out.println("-------- already await--------- unm 


jsc.close(); 
System.out.println("-------- already close---------- 2) 


} 

DStream、RDD 与 Partition 的 基础 单位 均 为 行 记录 Row, fH DStream 中 可 将 多 条 记录 
包装 成 一 个 个 RDD, ME RDD 中 也 可 将 多 条 记录 包装 成 Partition。 从 RDD 级 别 以 下 的 操 
作 都 属于 Spark Core 的 Job 操作 ，Job 操作 均 涉 及 集群 节点 的 参与 。 而 在 RDD 之 外 的 所 有 
操作 都 是 客户 端 Driver 级 别 的 操作 ， 不 会 涉及 Job 参与 。javaRDD.count(0) 返 回 的 是 RDD 
集合 中 行 记录 row 的 数量 (类 型 为 ong)，javaRDD.getNumPartitions() 返 回 的 是 RDD 集合 
中 包装 的 分 区 partition 的 数量 (类 型 为 int)。 由 于 partition 是 row 的 集合 ， 即 一 个 partition 
中 包含 多 行 记录 row, KE row 的 数量 为 0 则 partition 的 数量 必定 为 0。 

3. 基于 本 地 Spark Streaming 的 Socket 扫描 测试 

(1) 在 CloudDeskTop 节点 上 开启 Socket 监听 服务 。 

[hadoop@CloudDeskTop software]$ nc -1 9999 

(2) 在 Eclipse 中 运行 上 述 代码 。 一旦 代码 开始 运行 ， 控制 台 将 持续 输出 数据 ,但 是 均 
为 输出 。 

System.out.println("----- foreachRDD-call-collection-size:0------- n 

(3) 返回 至 CloudDeskTop 节点 的 控制 台 输 入 数据 。 

liyongfu 


再 次 查看 Eclipse 的 控制 台 打 印 ， 此 时 输出 : 


System.out.printiln("----- foreachRDD-call-collection-size:1------- ")z 
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liyongfu 

(4) 车 返回 至 CloudDeskTop 节点 的 控制 台 上 ， 快 速 输入 两 行 数据 : 
liyongfu 

ligang 


则 Eclipse 的 控制 台 打 印 此 时 输出 : 


liyongfu 

17/08/19 18:09:00 INFO Executor: Finished task 0.0 in stage 4.0 (TID 5) . 
925 bytes result sent to driver 

17/08/19 18:09:00 INFO TaskSetManager: Starting task 1.0 in stage 4.0 (TID 
6, localhost, executor driver, partition 1, ANY, 6261 bytes) 

17/08/19 18:09:00 INFO Executor: Running task 1.0 in stage 4.0 (TID 6) 
17/08/19 18:09:00 INFO TaskSetManager: Finished task 0.0 in stage 4.0 (TID 
5) in 62 ms on localhost (executor driver) (1/2) 

17/08/19 18:09:00 INFO BlockManager: Found block input-0-1503137339200 
locally ligang 


4. 应 用 代码 分 析 
JobLines 是 DStream 类 型 ， 属 于 离散 流 集合 。 它 的 数据 来 自 Socket 端口 的 扫描 获取 ， 
-个 离散 流 的 集合 对 象 〈 如 JobLines) 对 应 于 一 个 特定 的 时 间 片 段 〈 如 这 里 的 5 秒 ) 收集 
的 数据 记录 行 。 该 数据 记录 以 RDD 为 单位 进行 包装 ， 并 将 其 放置 于 离散 流 集 合 中 ， 离 散 
流 集合 对 象 中 的 每 一 个 RDD 集合 均 包 含 若 干 条 数据 记录 。 即 便 Streaming 框架 未 从 数据 源 
获得 任何 数据 , 离散 流 集 合 对 象 JobLines 中 也 至 少 存在 一 个 尺寸 为 空 的 RDD 集合 对 象 ( 代 
码 中 的 javaRDD)， 因 此 数据 源 没有 数据 的 情况 下 至 少 会 打印 如 下 输出 : 


若 在 特定 时 间 片 段 上 获取 的 数据 记录 数量 较 少 ， 则 高 散 流 集合 对 象 中 可 能 仅 存 在 一 个 
RDD 集合 。 一 个 离散 流 集合 对 象 中 存在 多 少 个 RDD 集合 对 象 取决 于 时 间 片 段 的 长 短 和 时 
间 片 段 内 的 数据 记录 的 数量 大 小 ， 该 过 程 由 Streaming 框架 自动 计算 。 

Spark Streaming 同样 属于 Spark Core 的 上 层 应 用 ， 而 Spark Core 基于 RDD 执行 Job 
操作 (一 个 RDD 对 应 一 个 Job)。 因 此 Spark Streaming 必须 将 离散 流 集 合 对 象 中 的 多 条 记 
录 包 装 成 一 个 个 的 RDD 对 象 ， 以 传递 给 底层 的 Spark Core 进行 处 理 。 

JobLines.foreachRDD 及 该 代码 逻辑 之 外 的 语句 均 属 建立 在 RDD 之 上 的 Spark 
Streaming 框架 中 的 离散 流 操作 语句 ， 该 操作 语句 相对 Spark Core 属于 其 SparkCore 的 客户 
端 Driver 执行 的 代码 。 因 此 该 部 分 代码 在 本 地 运行 模式 或 集群 运行 模式 下 ， 其 标准 输出 均 
打印 到 控制 台 终端 显示 出 来 。 而 javaRDD .foreach 及 其 包装 体 中 的 代码 语句 均 基于 RDD 本 
身 进行 操作 的 Spark Core 的 代码 ，Spark Core 操作 RDD 集合 时 , 将 其 包装 成 Job 作业 提交 
至 Spark 集群 中 运行 ( 即 在 每 一 个 Worker 节点 上 运行 这 些 代码 )。 因 此 基于 RDD 操作 中 的 
标准 输出 语句 不 会 显示 到 终端 控制 台 。 


17.3.3 基于 集群 的 Spark Streaming 流 式 数据 分 析 示 例 


(1) 场景 描述 : 通过 间隙 扫描 Socket 端口 源 的 数据 ， 将 拉 取 到 的 数据 存储 到 HDFS 分 
布 式 文件 系统 。 
(2) Spark Streaming 扫描 Socket 端口 。 源 码 实现 如 下 : 


package com.bnyw.bigdata.spark.streaming.cluster; 
import java.io.IOException; 
import java.net.URI; 
import java.net.URISyntaxException, 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache. spark. SparkConf: 
import org.apache. spark. api. java. JavaRDD, 
import org.apache. spark.api. java. function.VoidFunction: 
import org.apache. spark. streaming. Durations: 
import org.apache. spark. streaming. api. java. JavaReceiverInputDstream, 
import org.apache. spark. streaming.api. java. JavastreamingContext: 
@SuppressWarnings ("unchecked") 
public class SocketToHDFS { 
private static FileSystem fs; 
static{ 
Configuration conf=new Configuration (); 
try { 
fs=FileSystem.get (new URI("hdfs://ns1/"), conf, "hadoop"); 
} catch (IOException | InterruptedException | URISyntaxException e) { 
e.printStackTrace(); 


} 
public static void main(String[] args) throws InterruptedException, 
IOException { 
Path output=new Path("/spark/streaming/output") ; 
if (fs.exists (output) )fs.delete(output, true); 
SparkConf conf=new SparkConf (); 
conf .setAppName ("WordCountOnLine") ; 
JavaStreamingContext jsc=new JavaStreamingContext (conf, 
Durations. seconds (5) ); 
JavaReceiverInputDStream<String> JobLines=jsc.socketTextStream 
("CloudDeskTop", 9999) ; 
JobLines.foreachRDD (new VoidFunction<JavaRDD<String>>() { 
@override 
public void call(JavaRDD<String> javaRDD) throws Exception { 
long size=javaRDD.count (); 


System.out.println("----- foreachRDD-call-collection-size: 


Spark Streaming 


Hadoop+Spark AHER (RE) 


SUG ea EDIT 
if (0!=size) javaRDD. saveAsTextFile ("/spark/streaming/ 
output"); 


):; 
jsc.start(); 
jsc.awaitTermination(); 
jsc.close(); 

} 

) 


(3) 切换 至 工程 的 bin 目录， 将 com 文件 夹 打 包 至 工程 目录 下 的 dist 目录 。 


cd /project/SparkStreaming-JAVA/bin 
jar -cvfe /project/Sparkstreaming-JAVA/dist /SocketToHDFS. jar 
com.bnyw.bigdata.spark.streaming.cluster.SocketToHDFS com/ 


(4) 在 集群 模式 下 运行 Spark Streaming 的 Socket 测试 。 
(D 启动 Zookeeper 集群 。 


cd zookeeper-3.4.10/bin/ 
./zkServer.sh start 

jps 

Cd 一 


@ 启动 HDFS 集群 。 


cd /software/hadoop-2.7.3/bin 

./start-dfs.sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-namenode-master01.out 

master02: ssh: connect to host master02 port 22: No route to host 
slave01: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave01.out 

slave02: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave02.out 

slave03: starting datanode, logging to /software/hadoop-2.7.3/10gs/ 
hadoop-hadoop-datanode-slave03.out 

Starting journal nodes [slave01 slave02 slave03] 

slave02: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-journalnode-slave02.out 

slave01: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-journalnode-slave01.out 

slave03: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 


hadoop-hadoop-journalnode-slave03.out 


@ 启动 Spark 集群 。 


cd spark-2.1.1/sbin/ 

./start-master.sh 

starting org.apache.spark.deploy.master.Master, logging to / 
software/spark-2.1.1/1ogs/spark-hadoop-org. apache. spark.deploy.master. 
Master-1-master01.out 

[hadoop@master01 sbin]$ ./start-slaves.sh 

slave01: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slaveOl. out 

slave03: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave03.out 

slave02: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave02.out 

slave01: failed to launch: nice -n 0 /software/spark-2.1.1/bin/spark-class 
org.apache.spark.deploy.worker.Worker --webui-port 8081 
spark://master01:7077 

slave01: full log in /software/spark-2.1.1/10gs/spark-hadoop-org. 
apache.spark.deploy.worker.Worker-1-slave01.out 

slave03: failed to launch: nice -n 0 /software/spark-2.1.1/bin/spark-class 
org.apache.spark.deploy.worker.Worker --webui-port 8081 
spark://master01:7077 

slave03: full log in /software/spark-2.1.1/10gs/spark-hadoop-org.apache. 
Spark.deploy.worker.Worker-1-slave03.out 

slave02: failed to launch: nice -n 0 /software/spark-2.1.1/bin/spark-class 
org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master01: 
7077 

slave02: full log in /software/spark-2.1.1/logs/spark-hadoop-org. 
apache.spark.deploy.worker.Worker-1-slave02.out 


(5) 提交 Spark Streaming 应 用 到 Spark 集群 。 
(D 检查 输出 目录 是 否 存在 。 


[hadoop@CloudDeskTop dist]$ hdfs dfs -ls /spark 
Found 1 items 
drwxr-xr-x - hadoop supergroup 0 2017-08-17 11:20 /spark/input 


© 启动 nc 监听 服务 。 
[hadoop@CloudDeskTop dist]5 nc -1 9999 
@ 再 开启 一 个 终端 提交 Streaming 应 用 进行 测试 (此 处 无 须 指定 读 取 数 据 的 并 行 度 )。 


[hadoop@CloudDeskTop bin]$ pwd 
/software/spark-2.1.1/bin 
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[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 
--class com.bnyw.bigdata.spark.streaming.cluster.SocketToHDFS /project/ 
SparkStreaming-JAVA /dist/SocketToHDFS. jar 


© 待 控制 台 周期 性 地 出 现 如 下 提示 时 , 在 nc 服务 端的 控制 台 下 输入 数据 (如 my name 
is liyongfu): 


O 再 次 检查 输出 目录 是 否 已 存在 : 


[hadoop@CloudDeskTop dist]$ hdfs dfs -ls /spark 
Found 2 items 
drwxr-xr-x  - hadoop supergroup 0 2017-08-17 11:20 /spark/input 
drwxr-xr-x  - hadoop supergroup 0 2017-08-19 17:47 /spark/streaming 
[hadoop@CloudDeskTop dist]$ hdfs dfs -ls /spark/streaming 
Found 1 items 
drwxr-xr-x  - hadoop supergroup 0 2017-08-19 17:48 /spark/streaming/output 
[hadoop@CloudDeskTop dist]$ hdfs dfs -ls /spark/streaming/output 
Found 3 items 


-rw-r--r-- 3 hadoop supergroup 0 2017-08-19 17:48 /spark/streaming/ 
output/ SUCCESS 
drwxr-xr-x  - hadoop supergroup 0 2017-08-19 17:48 /spark/streaming/ 


output/ temporary 

-rw-r--r-- 3 hadoop supergroup 20 2017-08-19 17:48 /spark/streaming/ 
output/part-00000 

[hadoop@CloudDeskTop dist]$ hdfs dfs -cat /spark/streaming/output/part- 
00000 


my name is liyongfu 


Spark Streaming 并 不 适合 使 用 javaRDD.saveAsTextFile 方式 存储 流 式 数 据 到 HDFS 集 
群 ， 因 为 在 特定 的 时 间 片 段 下 产生 的 离散 流 数 据 记 录 量 相对 较 小 ， 由 于 离散 流 中 分 为 多 个 
RDD 集合 ， 每 一 个 RDD 集合 被 推送 到 Spark Core 上 执行 saveAsTextFile 方法 时 都 将 产生 
一 个 新 的 Job， 而 每 一 个 新 的 Job 都 会 在 对 应 的 输出 目录 (如 此 处 的 output HR) 下 创建 
类 似 于 part-0000X 的 文件 。 在 DStream 的 foreachRDD 和 迭代 中 ， 前 面 的 RDD 在 执行 
saveAsTextFile 方 法 时 产生 的 part-0000X 文 件 会 被 后 面 的 RDD H mi, KETE Spark Streaming 
应 用 执行 完成 之 后 仅 保留 最 后 一 个 RDD 对 象 的 数据 。 为 实现 离散 流 分 析 后 的 数据 不 被 覆 
盖 ， 可 使 用 文件 流 的 追加 方式 来 实现 。 
17.3.4 基于 集群 模式 下 的 集群 文件 TO 流 分 析 示 例 


上 述 集群 操作 显示 ， 不 同 的 RDD 均 创 建 相同 的 文件 以 产生 文件 覆盖 。 为 收集 所 有 数 
据 不 可 使 用 saveAsTextFile 方法 ， 应 在 Task 中 使 用 FileSystem 的 VO 流 进行 操作 。 


1. 基于 文件 VO 流 的 源码 开发 


package com.bnyw.bigdata.spark.streaming.cluster; 
import java.io.IOException; 
import java.net.URI; 
import java.net.URISyntaxException, 
import java.util.Iterator; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FSDataOutputStream; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache.spark.SparkConf; 
import org.apache.spark.api.java.JavaRDD; 
import org.apache.spark.api.java.function.VoidFunction; 
import org.apache.spark.streaming.Durations; 
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream; 
import org.apache.spark.streaming.api.java.JavaStreamingContext; 
@SuppressWarnings ("unchecked") 
public class SocketToHDFS2 ( 
private static int count; 
private static FileSystem fs; 
private static final String outPath-"/spark/streaming/output"; 
static{ 
Configuration conf=new Configuration (); 
try { 
fs-FileSystem.get (new URI("hdfs://ns1/"), conf, "hadoop"); 
) catch (IOException | InterruptedException | URISyntaxException e) ( 
e.printStackTrace(); 


È 
private static void saveLine (Iterator<String> its) throws IOException( 
Path outFile-new Path (outPath+"/part-"+count++); 
FSDataOutputStream dos=fs.create(outFile, true): 
try{ 
while (its.hasNext ())( 
String line-its.next(); 
dos.writeUTE (line+"\n"); 
} 
dos.flush(); 
}finally{ 
dos.close(); 


d 
public static void main(String[] args) throws InterruptedException, 


IOException ( 
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Path output=new Path (outPath) ; 
if (fs.exists (output) )fs.delete (output, true); 
boolean flag=fs.mkdirs (output) ; 
if (!flag) return; 
SparkConf conf=new SparkConf (); 
conf .setAppName ("WordCountOnLine") ; 
JavaStreamingContext jsc=new JavaStreamingContext (conf, Durations. 
seconds (5)); 
JavaReceiverInputDStream«String» JobLines=jsc.socketTextStream 
("CloudDeskTop", 9999) ; 
JobLines.foreachRDD(new VoidFunction<JavaRDD<String>> () { 
@override 
public void call(JavaRDD<String> javaRDD) throws Exception { 
long size=javaRDD.count () : 
System.out.println("----- foreachRDD-call-collection- 
size:"+size+"------- my 
if (0==size) return; 
javaRDD.foreachPartition (new VoidFunction<Iterator 
<String>>() { 
private int count; 
@override 
public void call (Iterator<String> its) throws Exception { 
saveLine (its); 


Di 


n: 

jsc.start(); 
jsc.awaitTermination(); 
jsc.close(); 


2. 将 编号 的 Spark Streaming 代码 打包 至 工程 目录 下 的 dist 目录 


hadoop@CloudDeskTop bin]$ pwd 

/project/SparkStreaming-JAVA/bin 
hadoop@CloudDeskTop bin]$ jar -cvfe ../dist/SocketToHDFS2.jar com.bnyw. 
bigdata.spark.streaming.cluster.SocketToHDFS2 com/ 


3. JAB) nc 服务 器 


hadoop@CloudDeskTop bin]$ nc -1 9999 


4. FAG) Streaming 应 用 并 测试 


hadoop@CloudDeskTop bin]$ pwd 


/software/spark-2.1.1/bin 
[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 
--class com.bnyw.bigdata.spark.streaming.cluster.SocketToHDFS2 
/project/Sparkstreaming-JAVA/dist/SocketToHDES2. jar 


5. 在 nc 服务 端 控制 台 粘 贴 /etc/sysconfig/network-scripts/ifcfg-eth0 文件 中 的 内 容 并 
查看 HDFS 集群 中 是 否 写 人 数据 


[hadoop@CloudDeskTop software]$ hdfs dfs -ls /spark/streaming/output 
Found 2 items 


-rw-r--r-- 3 hadoop supergroup 173 2017-08-20 14:12 /spark/streaming/ 
output/part-0 
-rw-r--r-- 3 hadoop supergroup 15 2017-08-20 14:11 


/spark/streaming/output/part-1 
[hadoop@CloudDeskTop software]$ hdfs dfs -cat /spark/streaming/output/ 
part-0 
DEVICE-eth0 
TYPE-Ethernet 
ONBOOT=yes 
NM CONTROLLED=yes 
BOOTPROTO=static 
IPADDR=192.168.37.154 
NETMASK-255.255.255.0 
GATEWAY-192.168.37.2 
DNS1-192.168.37.2 
[hadoop@CloudDeskTop software]$ hdfs dfs -cat /spark/streaming/ 
output/part-1 
DNS2=8.8.8.8 


174 KafKa 事件 流 操作 


1741 AF Receiver 模式 的 KafKa 集成 
(1) 创建 Spark Streaming 上 下 文 。 


JavaStreamingContext jsc-JavaStreamingContext.getOrCreate 
(checkpointDirectory, factory); 


(2) 消费 组 连接 KafKa 集群 中 对 应 主题 的 线程 数量 (连接 某 一 主题 所 需 线程 数量 ， 即 
为 主题 与 线程 数量 的 映射 表 )。 一 般 情况 下 ， 主 题 中 的 一 个 分 区 (Partition) 对 应 一 个 线程 。 


(Thread) Map<String, Integer> topicThreadNum=new HashMap<String, Integer>(); 

(3) 此 处 指定 两 个 拉 取 线程 ， 实 际 操作 Streaming 需要 至 少 启动 3 个 线程 ， 因 为 还 需 
要 另 一 个 处 理 线程 。 该 处 指定 的 Key 是 topic 主题 名 称 ， 该 主题 名 称 需要 在 KafKa 集群 中 
事先 创建 完毕 ， 代 码 如 下 : 
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topicThreadNum.put ("HelloKafKa", 2); 


(4) 创建 基于 KafKa 中 间 件 的 输出 流 。 


JavaPairReceiverInputDStream<String, String> lineList-KafkaUtils. 
createStream(jsc, "YunSlave01:2181, YunSlave02:2181, YunSlave03:2181", 
"FirstConsumerGroup", topicThreadNum) ; 


上 述 方法 调用 返回 一 个 二 元 素 元 组 (其 中 第 一 个 元 素 代表 Key, Jk Key 一 般 为 空 或 无 
意义 的 数据 ， 第 二 个 元 素 代 表 value， 此 value 表示 为 行 记录 数据 )。createStream 方法 参数 
解释 如 下 : 

第 一 个 参数 : 表示 StreamingContext。 

第 二 个 参数 : 表示 Zookeeper 集群 节点 列表 , 说 明 Spark Streaming 通过 连接 Zookeeper 
集群 获知 KafKa 集群 信息 ， 进 而 连接 KafKa 集群 拉 取 数据 。 

第 三 个 参数 : 表示 Spark Streaming 作为 KafKa 集群 的 消费 组 ID 名称, 该 ID 自 定义 并 
保持 唯一 。 

第 四 个 参数 : 表示 Spark Streaming 连接 KafKa 集群 中 指定 主题 名 称 的 线程 数量 。 

第 五 个 参数 : 表示 Streaming 对 读 取 到 的 数据 的 存储 级 别 (默认 值 为 
StorageLevel MEMORY AND DISK SER 2， 表 示 存 储 至 内 存 和 磁盘 )。 

(5) 得 到 DStream 对 象 后 其 后 续 操作 与 Socket 操作 流程 相同 。 


JavaDStream<String> wordList-lineList.flatMap (new FlatMapFunction< 
Tuple2<String, String>, String> () { 
@override 
public Iterable<String> call (Tuple2cstring, String? tuple) throws 
Exception { 
String line=tuple. 2; 
return Arrays.asList(line.split(" ")); 


he 
(6) 启动 集群 。 
© 启动 Zookeeper 集群 : 


cd /software/zookeeper-3.4.10/bin 
./zkServer.sh start 

jps 

(mel 


@ 启动 KafKa 集群 : 


cd /software/kafka 2.10-0.9.0.1/bin 


nohup ./kafka-server-start.sh ../config/server.properties & 


© 创建 主题 : 
=--topic 参 数 指定 Streaming 客 户 端 连接 的 主题 名 称 


./kafka-topics.sh --create --zookeeper 
YunSlave01:2181, YunSlave02:2181, YunSlave03:2181 
--replication-factor 3 

--partitions 1 

--topic HelloKafka 


© 创建 用 于 产生 测试 数据 的 producer 并 在 Shell 控制 台 输 入 两 行 测试 数据 ，--topic 参 
数 指定 Streaming 客户 端 连 接 的 主题 名 称 : 


./kafka-console-producer.sh --broker-list 

YunSlave01:9092, Yunslave02:9092, YunSlave03:9092 --topic HelloKafka 
this is first test! 

this is second test02! 


© 启动 HDFS 集群 : 


start-dfs-sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to /software/ 
hadoop-2.7.3/10gs/hadoop-hadoop-namenode-master01.out 

master02: ssh: connect to host master02 port 22: No route to host 
slave02: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave02.out 

slave03: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave03.out 

slave01: starting datanode, logging to /software/hadoop-2.7.3/ 
logs/hadoop-hadoop-datanode-slave01.out 

Starting journal nodes [slave01 slave02 slave03] 

slave01: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave01.out 
slave02: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave02.out 
slave03: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave03.out 


© 启动 Spark 集群 : 


start-master.sh 

starting org.apache.spark.deploy.master.Master, logging to /software/ 
spark-2.1.1/10gs/spark-hadoop-org. apache. spark. deploy.master.Master-1- 
master01.0ut 


[hadoop@master01 sbin]$ ./start-slaves.sh 


slave01: starting org.apache.spark.deploy.worker.Worker, logging to / 


第 
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slave03: starting org.apache.spark.deploy.worker.Worker, logging to / 
Software/spark-2.1.1/10ogs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave03.out 
slave02: starting org.apache.spark.deploy.worker.Worker, logging to / 
Software/spark-2.1.1/1ogs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave02.out 


@ 运行 Spark-Streaming 程序 并 观察 其 控制 台 的 打印 输出 。 
17.4.2 AF Direct 模式 的 KafKa 集成 


KafKa using Receiver 模式 下 需 借 助 于 ZK 集群 的 连接 来 进行 操作 ， 由 于 Streaming 中 
的 多 个 线程 在 并 发 访问 ZK 集群 时 可 能 导致 ZK 集群 中 保存 的 同一 个 状态 Coffset 偏 移 量 ) 
被 多 个 线程 同时 读 取 ， 将 导致 KafKa 集群 中 的 数据 被 重复 处 理 。 同 时 可 能 因 状 态 切换 不 一 
致 导致 菜 些 数据 未 经 处 理 而 丢失 (此 处 可 能 需 开启 日 志 复 写 模式 (WAL))。 但 如 使 用 Direct 
模式 ， 可 使 Streaming 作为 消费 者 直接 操作 KafKa 集群 ， 以 保证 同一 个 KafKa 集群 中 的 数 
据 仅 被 处 理 一 次 ， 保 证 事务 一 致 性 〈 同 时 无 须 开 启 WAL 模式 )。 

Direct 模式 下 ，Streaming 将 使 用 KafKa 原生 的 API 直接 操作 KafKa 集群 (此 时 不 再 
借助 于 ZK REE). Direct 模式 下 属于 本 地 数据 操作 模式 〈 即 KafKa 集群 与 Streaming 存储 
数据 的 节点 处 理 数 据 的 节点 相同 )。 此 时 Streaming 中 RDD 的 partition 与 KafKa 集群 中 主 
题 Topic 中 的 partition 一 致 ， 如 此 Topic 中 的 partition 相当 于 HDFS 集群 中 的 一 个 Block。 

实际 上 ，Direct 模式 即将 Spark 构建 于 以 KafKa 集群 作为 底层 文件 系统 的 基础 之 上 进 
行 数据 处 理 ，Streaming 保证 事务 的 一 致 性 的 原因 在 于 Streaming 启用 checkpoint #Lifil (47 
Streaming 程序 版 本 升级 则 可 手动 指定 读 取 checkpoint 文件 实现 恢复 ) 持久 化 存储 offset 偏 
移 量 ， 直 接 将 底层 KafKa 集群 读 取 到 的 每 一 条 消息 均 包 装 为 一 个 转换 (transfmations), “4 
后 续 延 迟 处 理 数据 时 启动 action 操作 。 

1. 创建 Spark Streaming 上 下 文 


JavaStreamingContext jsc-JavaStreamingContext.getOrCreate 
(checkpointDirectory, factory); 


2. 创建 KafKa 元 数据 参数 字典 


Map<String, String> kafkaParam-new HashMap<String, String>(); 
kafkaParam.put ("metadata.broker.list","YunSlave01:9092,YunSlave02:9092, 
YunSlave03:9092"); 


3. 创建 主题 列表 


Set<String> topics=new HashSet<String>(); 
topics.add("SparkStreamingDirected") ; 


4. 创建 直接 基于 底层 KafKa 集群 文件 系统 的 Spark Streaming 输入 流 


JavaPairInputDStream<String, String> 


lineList=KafkaUtils.createDirectStream(jsc, String.class, 
String.class, StringDecoder.class, StringDecoder.class, kafkaParam, 


topics); 


5. 获取 到 DStream 对 象 
其 后 续 的 操作 与 Socket 模式 相同 。 


JavaDStream<String> wordList-lineList.flatMap (new FlatMapFunction< 
Tuple2<String, String>, String> ()( 
@override 
public Iterable<String> call (Tuple2cstring, String? tuple) throws 
Exception { 
String line=tuple. 2; 
return Arrays.asList (line.split(" ")); 


he 
6. 启动 集群 
1) 启动 Zookeeper 集群 


cd /software/zookeeper-3.4.10/bin 
./zkServer.sh start 

jps 

GE 

2) 启动 KafKa 集群 


cd /software/kafka 2.10-0.9.0.1/bin 
nohup ./kafka-server-start.sh ../config/server.properties & 


3) 创建 消息 主题 
--topic 参 数 指定 Streaming 客 户 端 连接 的 主题 名 称 


./kafka-topics.sh --create --zookeeper 
YunSlave01:2181, YunSlave02:2181, YunSlave03:2181 
--replication-factor 3 

--partitions 1 

--topic SparkStreamingDirected 


4) 创建 用 于 产生 测试 数据 的 producer 并 在 shell 控制 台 输 入 两 行 测试 数据 
--topic 参数 指定 Streaming 客户 端 连 接 的 主题 名 称 。 
./kafka-console-producer.sh --broker-list 


YunSlave01:9092, YunSlave02: 9092, YunSlave03:9092 --topic 
SparkStreamingDirected 


this is first test! 第 
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5) 启动 HDFS 集群 


start-dfs.sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-namenode-master01.out 

master02: ssh: connect to host master02 port 22: No route to host 
slave02: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave02.out 

slave03: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave03.out 

slave01: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave01.0out 

Starting journal nodes [slave01 slave02 slave03] 

slave01: starting journalnode, logging to 
/software/hadoop-2.7.3/logs/hadoop-hadoop-journalnode-slave01.out 
slave02: starting journalnode, logging to 
/software/hadoop-2.7.3/logs/hadoop-hadoop-journalnode-slave02.out 
slave03: starting journalnode, logging to 

/software/hadoop-2 .7.3/logs/hadoop-hadoop-journalnode-slave03.out 


6) 启动 Spark 集群 


start-master.sh 

starting org.apache.spark.deploy.master.Master, logging to /software/ 
spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.master.Master-1- 
master01.out 

[hadoop@master01 sbin]$ ./start-slaves.sh 

slave01: starting org.apache.spark.deploy.worker.Worker, logging to 
/software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave0l.out 

slave03: starting org.apache.spark.deploy.worker.Worker, logging to 
/software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave03.out 

slave02: starting org.apache.spark.deploy.worker.Worker, logging to 
/software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave02.out 


7) 运行 Spark-Streaming 程序 并 观察 其 控制 台 的 打印 输出 
17.5 VO 文件 事件 流 操作 


Spark Streaming 可 直接 扫描 给 定 目 录 下 的 数据 ， 然 后 将 数据 读 入 Spark Streaming 的 离 
散 流 中 ， 将 离散 流 包装 为 RDD 并 封装 为 Job 应 用 提交 到 Spark 内 核 进行 分 析 和 处 理 。 


1751 基于 路 径 扫 描 的 Spark Streaming 
源码 如 下 : 


package com.bnyw.bigdata.spark.streaming.cluster; 
import java.sql.Connection; 
import java.sql.Date; 
import java.sql.DriverManager; 
import java.sql.PreparedStatement; 
import java.sql.SQLException; 
import java.util.Iterator; 
import org.apache. spark. SparkConf, 
import org.apache.spark.api. java. JavaRDD: 
import org.apache.spark.api.java. function. Function: 
import org.apache.spark.api.java. function. VoidFunction: 
import org.apache. spark. streaming. Durations: 
import org.apache. spark. streaming.api. java. JavaDstream: 
import org.apache. spark. streaming. api. java. JavastreamingContext: 
import scala.Tuple4; 
public class HDFSTODB { 
// 批 量 计 数 器 
private static int count; 
// 数 据 库 连 接 对 象 
private static Connection conn: 
// 数 据 库 操作 语句 对 象 
private static Preparedstatement pstat; 
static{ 
try ( 
Class.forName ("com.mysql.jdbc.Driver"); 
conn-DriverManager.getConnection ("jdbc:mysql:// 
IIg2 ese sy alas 
3306/bnyw?characterEncoding-utf8", "root", "123456"); 
pstat-conn.prepareStatement ("insert into tuser (uno, uname, height,birthday) 
values (?,?,?,?)"); 
} catch (Exception e) { 
e.printStackTrace (): 


} 

// 批 量 存储 RDD 分 区 中 的 数据 

private static void batchSave(Iterator«Tuple4«Integer, String, 
Double, Date>> 


partition,boolean isOver) throws SQLException( 第 
if (isOver 
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batchSave (its, false): 


Hi 
}finally{ 
pstat.close(); 


conn.close(); 


) 
public static void main(String[] args) throws Exception{ 
SparkConf conf-new SparkConf(); 
conf.setAppName ("Cluster HDFS To HDFS"); 
JavaStreamingContext jsc-new JavaStreamingContext 
(conf, Durations.seconds (8) ); 
JavaDStream<String> dStreamLines=jsc.textFileStream 
("/spark/streaming/input") ; 
dstreamLines.foreachRDD(new VoidFunction<JavaRDD<String>>() { 
@override 
public void call(JavaRDD<String> javaRDD) throws Exception ( 
int partitionNum-javaRDD. getNumPartitions () 7 
System.out.println("------ foreachRDD-partitionNum:" 
*partitionNume"-------------------- Dis 
if(0--partitionNum)return; 
// 将 行 记录 映射 为 元 组 方便 后 续 执 行 数据 库 操作 
JavaRDD<Tuple4<Integer, String, Double, Date>> mapRDD=javaRDD. 
map (new 
Function<String, Tuple4<Integer, String, Double, Date>>() { 
GOverride 
public Tuple4«Integer, String, Double, Date» call 
(String line) throws 
Exception { 
String[] fieldValues-line.split ("Nt"); 
Integer uid-Integer.parseInt (fieldValues[0]); 
String uname=fieldValues[1]; 
Double height-Double.parseDouble (fieldValues 
[21); 
Date birthday-Date.valueOf (fieldValues[3]); 
return new Tuple4«Integer, String, Double 
Date» (uid, uname, height, birthday) ; 


Hi 


// 将 RDD 存 储 到 关系 数据 库 第 
saveToDB (mapRDD) 7 17 
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nz 


jsc.start(); 
jsc.awaitTermination(); 


jsc.close(); 


17.5.3 ”打包 至 工程 的 dist E 
1， 切 换 至 工程 的 编译 路 径 


hadoop@CloudDeskTop bin]$ pwd 
/project/SparkStreaming-JAVA/bin 


2. WIERIHIT) JAR 包 


hadoop@CloudDeskTop bin]$ rm -FE ../dist/* 


3. 压缩 新 JAR 包 


hadoop@CloudDeskTop bin]$ jar -cvfe ../dist/HDFSToDB. 
com.bnyw.bigdata.spark.streaming.cluster.HDFSToDB com/ 
hadoop@CloudDeskTop bin]$ 1s ../dist/ 
HDFSToDB. jar 


17.5.3 ”启动 集群 


1. 启动 Zookeeper 集群 


cd zookeeper-3.4.10/bin/ 
./zkServer.sh start 

(Gl = 

ips 

2. 启动 HDFS 集群 


./start-dfs.sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-namenode-master01.out 

master02: ssh: connect to host master02 port 22: No route to host 
slave02: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave02.out 

slave03: starting datanode, logging to /software/hadoop-2.7.3/10gs/ 
hadoop-hadoop-datanode-slave03.out 

slave01: starting datanode, logging to /software/hadoop-2.7.3/logs/ 


hadoop-hadoop-datanode-slave01.out 


Starting journal nodes [slave01 slave02 slave03] 


slave01: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 


hadoop-hadoop-journalnode-slave01.out 


slave02: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 


hadoop-hadoop-journalnode-slave02.out 


slave03: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 


hadoop-hadoop-journalnode-slave03.out 


3. 局 动 Spark 集群 


./start-master.sh 


starting org.apache.spark.deploy.master.Master, logging to 


/software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.master. 


Master-1-master01.out 


[hadoop@master01 sbin]$ ./start-slaves.sh 


slave01: starting org.apache.spark.deploy.worker.Worker, logging to/ 


software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 


Worker-1-slave01.out 


slave03: starting org.apache.spark.deploy.worker.Worker, logging 


to/software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 


Worker-1-slave03.out 


slave02: starting org.apache.spark.deploy.worker.Worker, logging to / 


software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 


Worker-1-slave02.out 


4. 准备 数据 


创建 Spark 的 HDFS 输入 源 路 径 如 下 : 


[hadoop@master01 sbin]$ hdfs dfs -ls /spark/streaming 


Found 1 items 


drwxr-xr-x - hadoop supergroup 


output 


0 2017-08-20 14:12 /spark/streaming/ 


[hadoop@master01 sbin]$ hdfs dfs -mkdir -p /spark/streaming/input 


[hadoop@master01 sbin]$ hdfs dfs -ls /spark/streaming 


Found 2 items 


drwxr-xr-x - hadoop supergroup 
input 
drwxr-xr-x  - hadoop supergroup 
output 


[hadoop@CloudDeskTop install]$ cat userl 


100 ligang Aem 
200 zhanghua Ls72 
300 chengian 1.78 
400 guanyu 1.56 


196212526 
1983-10-12 
russ yep al bes Ve} 
1996-08-08 


0 2017-08-21 00:27 /spark/streaming/ 


0 2017-08-20 14:12 /spark/streaming/ 
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500 zhangfei 1.64 1994-02-25 
600 zhaoyun 1:76 1978-06-05 


5. 创建 MySQL 数据 表 


[root@DB03 ~]# cd /software/mysq1-5.5.32/multi-data/3306/ 

[root@DB03 3306]# ./mysqld start 

Starting MySQL... 

[root@DB03 3306]# lsof -i:3306 

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME 

mysqld 1663 mysql llu IPv4 13983 0t0 TCP *:mysql (LISTEN) 
[root@DB03 3306]# cd /software/mysq1-5.5.32/bin/ 

[root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -Dbnyw 
-e"show tables" 


[root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -Dbnyw 
-e"createtable if not exists tuser(uid int(11) auto increment primary 
key,uno int(11),uname varchar(30),height double(4,2),birthday 
date)engine-innodb charset-utf8" 

[root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -Dbnyw 
=Grdese tugser® 


+-------- 4+----------- 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 一 一 一 一 Ha + 
| Field | Type | Null | Key | Default | Extra | 
4------- 二 一 一 一 一 一 一 一 一 + 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 4------------ * 
| uid pana) | NO | PRI | NULL | auto increment 

| uno int (ae) | YES | | NULL | | 

| uname | varchar(30) | YES | | NULL | | 

| height | double(4,2) | YES | | NULL | | 

| birthday | date i YES i | NULL | | 

二 -一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 4----- pp Pa +------------ + 


[root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -Dbnyw 
-e"select* from tuser" 


6. 提交 Streaming 应 用 到 Spark 集群 
(1) 查看 表 中 是 和 否 有 数据 。 


[root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -Dbnyw 
ze"select* from tuser" 


(2) 提交 Streaming 应 用 。 


[hadoop@CloudDeskTop bin]$ pwd 
/software/spark-2.1.1/bin 


[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 
--class com.bnyw.bigdata.spark.streaming.cluster.HDFSToDB /project/ 
SparkStreaming-JAVA/dist/HDFSTODB. jar 


(3) 待 控制 台 出 现 以 下 数据 打印 时 , 开始 往 Streaming 扫描 的 HDFS 集群 路 径 下 上 传 数据 。 


(4) 上 传 本 地 数据 至 Streaming 扫描 的 HDFS 集群 路 径 。 
[hadoop@CloudDeskTop install]$ hdfs dfs -put userl /spark/streaming/input/ 


(5) 再 次 观察 控制 台 打印 的 数据 。 


(6) 观察 关系 数据 库 中 是 否 已 有 数据 。 


[root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -Dbnyw 
-e"select* from tuser" 


+----- + 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 4-------- 二 一 一 一 一 一 一 一 一 一 一 一 一 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| uid | uno | uname | height | birthday 

+---- 4------- ----4-- 

| 1 | 100 | ligang | 422679151982 L229 | 

| 2 | 200 | zhanghua | Le || 3=L0=12 || 

| 3 | 300 | chenqian | UTAS || AE || 

| 4 | 400 | guanyu | 1256 | 1996-08-08] 

| 5 | 500 | zhangfei | 1.64 | 1994-02-25 | 

| 6 | 600 | zhaoyun | Waris || aS ey | 

+----- 4------ 4--------- 4------- 4-------------- 4---------------- * 


D 复制 一 份 本 地 文件 ， 再 次 上 传 并 观察 数据 库 中 的 数据 是 否 增长 。 


[hadoop@CloudDeskTop install]$ cp -a userl user2 

[hadoop@CloudDeskTop install]$ hdfs dfs -put user2 /spark/streaming/input/ 
[root@DB03 bin]# ./mysql -h192.168.37.143 -P3306 -uroot -p123456 -Dbnyw 
ce select + from tusser” 


gg 一 一 一 二 一 一 一 

| uid | uno | uname | height | birthday 

十 -一 一 一 一 Hu 二 一 一 一 一 一 一 一 一 一 一 4 一 一 一 一 一 一 一 一 4 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 + 

| 11 100] ligang | 1.67 | 1982-12-28 | 

| 2 | 200 | zhanghua | 1.72 | 1983-10-12 | 

| 3 | 300 | chengian | 1.78 | 1981-11-18 | 

| 4 | 400 | guanyu | 1.56 | 1996-08-08 | 

| 5 | 500 | zhangfei | 1.64 | 1994-02-25 | 第 
| 61 600 | zhaoyun | 1.76 | 1978-06-05 | 17 
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l 7 | 100 | ligang | IAG) 1982-12-28] 
| 8 | 200 | zhanghua | 2965.00.02] 
| 9 | 300 | chenqian | 1:18 H re SG IS Bs || 
| 10 | 400 | guanyu | 1.56 | 1996-08-08 | 
| 11 | 500 | zhangfei | 1.64 | 1994-02-25 | 
| 12 | 600 | zhaoyun | 1:16 | 6197820620511] 
4+--+----- + 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 + 一 一 一 一 一 一 一 4---------- * 


实际 上 Spark Streaming 是 一 种 基于 事件 的 路 径 扫描 机 制 。 在 指定 扫描 的 路 径 下 若 存在 
新 增 文件 的 动作 (Action) 则 触发 Spark Streaming 框架 的 事件 处 理 函 数 CEventHandler), 
Spark Streaming 框架 将 读 取 新 增 文件 进行 流 化 处 理 。 


第 18 章 Spark 机 器 学 习 


18.1 机 器 学 习 原 理 


关于 Spark 机 器 学 习 的 模型 构建 和 模型 训练 的 视频 讲解 可 扫描 二 维 码 观 看 。 
na B 


18.1.1 机 器 学 习 的 概念 


机 器 学 习 《〈 俗 称 人 工 智 能 ) 是 指 根据 业务 领域 内 相关 维度 并 基于 已 有 样本 数据 集 ， 通 
过 数理 上 的 回归 分 析 、 拟 合 和 迭代 等 算法 得 出 一 套 经 验 公 式 或 数理 结论 ， 而 后 将 其 应 用 到 未 
来 某 个 时 空 点 上 以 预测 可 能 产生 或 发 生 的 数据 。 

Spark 的 机 器 学 习 建 立 在 MLLIB 算法 库 的 基础 之 上 。 从 数理 的 角度 来 看 ，Spark 的 机 
器 学 习 构 建 在 向 量 和 矩阵 之 上 ， 即 建立 在 RDD/DataFrame/DataSet 之 上 的 函数 算法 库 ， 算 
法 库 中 的 这 些 函 数 实现 了 机 器 学 习 的 各 种 算法 (如 各 种 回归 算法 、 拟 合算 法 、 分 类 算法 等 )， 
该 算法 函数 操作 的 数据 单位 是 RDD、DataFrame £k DataSet. 

Spark 数据 来 源 的 最 底层 封装 是 RDD， 其 与 Spark 的 版 本 无 任何 关系 ， 版 本 的 发 展 仅 
为 提供 如 DataFrame、DataSet 等 更 高 层 的 API: 使 用 DataFrame 和 DataSet 是 为 了 提供 一 
个 更 高 层 的 统一 优化 层面 。 机 器 学 习 即 将 RDD、DataFrame 或 DataSet 包装 成 矩阵 或 向 量 ， 
并 依赖 于 此 和 矩阵 或 向 量 调用 算法 库 中 的 函数 来 实现 模型 推导 。 

机 器 学 习 是 依据 统计 学 的 算法 和 推导 得 出 一 个 规律 〈 即 模型 或 数理 公式 )， 推 导 此 规 
律 的 过 程 就 是 模型 的 训练 过 程 。 规 律 一 旦 得 出 《模型 一 旦 被 训练 出 ) 便 可 将 当前 的 数据 应 
用 到 此 规律 〈 模 型 ) 中 得 出 结论 ， 该 结论 即 依赖 于 已 有 规律 和 当前 数据 的 一 个 预测 值 。 

规律 的 推导 《〈 即 模型 的 训练 ) 须 依 赖 于 统计 大 量 基础 数据 而 得 出 结论 ， 数 据 量 越 大 则 
统计 的 精确 度 越 高 ， 得 出 的 规律 〈 模 型 ) 越 准确 。 因 此 ， 大 数据 机 器 学 习 是 依赖 于 海量 数 
据 集 的 统计 算法 而 得 出 的 一 种 模型 。 依 赖 于 海量 数据 集 进行 演绎 和 推导 模型 的 过 程 称 为 模 
型 训练 ， 训 练 出 的 模型 准确 度 取决 于 数据 集 的 大 小 。 


18.1.2 ”机 器 学 习 的 分 类 


CD 监督 学 习 : 比如 分 类 ， 即 给 出 学 习 样本 的 同时 指定 样本 类 别 。 
QD 非 监督 学 习 : 比如 聚 类 ， 即 给 出 学 习 样 本 时 未 指定 样本 类 别 。 
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18.1.3 Spark 机 器 学 习 的 版 本 演变 


RDD: 自 Spark 产生 以 来 的 基础 和 核心 API。 

DataFrame: H Spark 1.3.x 开始 ， 主 要 用 于 处 理 来 自 关系 型 数据 库 中 的 源 数据 。 
DataSet: 自 Spark 1.6.x 开始 ， 至 Spark 2.x KA. 

提示 : 生产 环境 下 建议 使 用 Spark 2.1.1 成 熟 版 本 。 


18.1.4 DataFrame 数据 结构 


该 数据 结构 由 新 一 代 基于 存储 列 信息 的 Row 对 象 的 语法 解析 框架 〈Catalyst) 和 执行 
引擎 (Tungsten) 完成 计算 ， 可 在 数据 传递 给 RDD 计算 之 前 完成 基于 行列 数据 的 过 滤 ， 实 
现 一 个 pushdown 的 下 推 操作 。 此 处 RDD 充当 服务 层 ，DataFrame 充当 底层 的 执行 引擎 ， 
数据 源 首先 通过 DataFrame 过 滤 ， 然 后 上 行 到 RDD 计算 。 


18.1.5 DataSet 数据 结构 


在 DataFrame 基础 上 提供 基于 Encoder 编译 时 的 类 型 安全 检查 ， 将 字段 类 型 兼容 性 检 
查 由 运行 时 提前 到 编译 期 间 ， 将 减少 发 生 类 型 转换 失败 的 错误 ， 无 须 在 计算 时 做 反 序列 化 
转换 ， 直 接 基于 Encoder 的 二 进 制 计算 将 提升 计算 效率 和 性 能 ;优化 内 存 管 理 的 GC 机 制 
(降低 GC 发 生 频率 ) 将 降低 内 存 使 用 率 和 网 络 数据 传送 量 ; 降低 使 用 Scala 与 使 用 Java 语 
言 编程 的 差异 性 (由 于 DataSet 需 进 行 编 译 期 类 型 检查 ， 因 此 DataSet 目前 不 支持 Python 
FR); 除 此 之 外 ，DataSet 对 流 处 理 、SQL 及 其 ML 的 API 编程 进行 了 统一 。 


18.1.6 ”执行 引擎 的 性 能 与 效率 


Spark 第 二 代 Tungsten 引擎 ( 即 Spark 2.x 中 DataSet 使 用 的 计算 引擎 ) 与 第 一 代 Tungten 
引擎 (DataFrame 使 用 ) 相 比 , 在 过 滤 和 分 组 方面 有 了 极 大 的 性 能 提升 (这 些 操作 包括 filter. 
join. group. distinct 等 )。 过 滤 性 能 上 的 提升 主要 体现 在 以 下 几 个 方面 。 

CD 将 多 个 算 子 产生 的 多 次 集合 过 滤 操 作 合并 为 一 个 或 更 少 的 算 子 产生 的 单 次 过 滤 或 
更 少 的 过 滤 操 作 。 

(20 极 大 地 减少 虚 函 数 调用 以 及 运行 时 具体 实例 的 查找 和 绑 定 过 程 ， 从 而 降低 CPU 的 
操作 负载 。 

(3) 中 间 数 据 放 置 于 CPU 寄存 器 而 不 是 放置 于 内 存 中 ,对 于 复杂 类 型 的 数据 (如 一 行 
数据 是 一 个 复杂 对 象 时 ) 可 以 优化 以 基于 列 式 迭 代 〈 有 多 少 列 就 欠 代 多 少 次 ， 每 迭代 一 次 
就 取出 一 整 列 数据 ) 的 方式 来 进行 过 滤 操 作 ， 极 大 地 减少 了 迭代 次 数 。 


18.1.7 Spark 2.x 的 新 特性 


在 Spark 的 发 展 史 中 到 目前 为 止 有 两 个 稳定 版 本 ， 分 别 是 Spark 1.6.2 和 Spark 2.1.1. 
其 中 ，Spark 2.x 的 优点 是 擅长 密集 型 计算 ,缺点 是 没有 对 VO 操作 进行 优化 。Spark 2.x 中 
的 Structured Streaming 可 直接 基于 事件 的 扫描 或 读 取 数据 流 ， 并 对 读 取 的 Spark 数据 流 可 
直接 执行 交互 式 SQL 查询 ， 这 是 Spark 1.x 中 不 具备 的 能 力 。 

TE Spark 2.x 中 处 理 的 DataFrame, DataSet 对 应 的 表 无 下 边界 ， 因 为 数据 流 不 断 产 生 ， 这 


种 机 制 称 为 “End To End Continues Application”， 这 是 Spark 2x 区 别 于 以 往 版 本 的 重要 特征 。 
18.2 线性 回归 


线性 回归 算法 (Linear Regression) 是 利用 线性 回归 函数 对 一 个 或 多 个 自 变 量 和 因 变 量 
之 间 的 关系 建 模 的 一 种 回归 分 析 方 法 。 仅 一 个 自 变 量 的 情况 称 为 简单 一 元 线性 回归 ， 多 个 
自 变 量 的 回归 分 析 被 称 为 多 元 线性 回归 。 

线性 回归 算法 的 原理 如 下 : 

根据 已 有 的 特征 值 集合 (集合 中 包括 多 组 特征 值 ， 每 组 特征 值 feature 使 用 (x,y,z,…) 来 
表示 ， 会 是 一 到 多 个 自 变量 。 如 果 一 组 特征 值 中 仅 一 个 自 变量 则 表示 为 一 元 线性 回归 ， 如 
果 存 在 多 个 自 变量 则 表示 为 多 元 线性 回归 ) 和 特征 值 集合 中 每 组 特征 值 对 应 的 函数 值 〈 函 
数值 label 使 用 f(x,y,z…) 表 示 ) 来 进行 模型 训练 〈 即 执行 回归 迭代 )， 模 型 训练 的 结果 将 
产生 一 个 类 似 于 f(x,y,z…)=(x,y,z.…) 的 经 验 公 式 。 线 性 回归 中 的 函数 值 label 与 特征 值 组 内 的 
每 个 自 变量 (x 或 y 或 z…) 均 呈 单 调 线性 关系 。 线 性 回归 分 析 算 法 是 其 他 数据 挖掘 算法 的 
基础 。 


1821 线性 回归 分 析 过 程 


(1) 构造 预测 函数 (h 函数 ); 

(2) 构造 cost 函数 (J(9)); 

G) 利用 梯度 下 降 (上 升 ) 算法 来 计算 J(6) 的 最 小 值 ; 
(4) 梯度 下 降 (上 升 ) 算法 的 向 量化 (以 减少 循环 层次 )。 


18.22 ”矩阵 分 析 过 程 


Spark 输入 流 中 的 每 一 条 记录 均 可 切 分 为 各 个 字段 ， 多 条 记录 的 组 合 即 构成 一 个 分 析 
样本 的 二 维 表 结 构 ， 此 二 维 表 又 称 为 输入 矩阵 。 其 行为 输入 的 每 一 条 记录 ， 其 列 为 输入 记 
录 中 切 分 出 来 的 各 个 字段 。 基 于 RDD 和 DataFrame 的 矩阵 称 为 批量 样本 矩阵。 基于 DataSet 
的 样本 流 没有 结束 点 ， 因 此 这 种 样本 矩阵 称 为 动态 输入 样本 矩阵 ， 即 随 着 时 间 的 推移 其 算 
阵 的 行 记录 将 不 断 增长 。 


18.2.3 基于 本 地 模式 的 线性 回归 分 析 


CD 建立 Scala 工程 SparkML, 并 在 工程 目录 下 创建 input 和 output 目录 ，sample 目录 
用 于 存放 Spark-ML 的 样本 数据 ，input 目录 用 于 存放 需要 预测 的 数据 ，output 目录 用 于 存 
放 预 测 后 的 数据 。 


[hadoop@CloudDeskTop SparkML]S pwd 

/project/scala/SparkML 
[hadoop@CloudDeskTop SparkML]$ mkdir -p sample/lr input/lr output/lr 
[hadoop@CloudDeskTop SparkML]$ 1s 


bin input output sample src 
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(2) 构建 样本 数据 。 


(3) 本 地 线性 回归 的 源码 。 


def main(args: Array[String]): Unit = { 
val conf:SparkConf-new SparkConf (); 
conf.setAppName ("Local Scala Spark LinearRegressionML") ; 
conf.setMaster ("local"): 
val sc:SparkContext-new SparkContext (conf); 
val lines:RDD[String]=sc.textFile("/project/scala/SparkML/ 
sample/lr", 1); 
val featureField:StructField-DataTypes.createStructField ("eno", 
DataTypes.DoubleType, false); 
val labelField:StructField-DataTypes.createStructField ("score", 
DataTypes.DoubleType, false); 
val fieldList:java.util.List[StructField]-new java.util.ArrayList 
[StructField] (); 
fieldList.add (featureField), 
fieldList.add (labelField), 
val structType:StructType-DataTypes.createStructType (fieldList); 
val rows:RDD[Row]=lines.map ((line:String) =>{ 
val fieldVals:Array[String]=line.split('\t'); 
val dl:Double- fieldVals (0) .toDouble; 
val d2:Double-fieldVals (1) .toDouble; 
Row (d1,d2) ; 
Di 
val sqlContext:SQLContext=new SQLContext (sc): 
val dflines:DataFrame-sqlContext.createDataFrame (rows, structType); 
val inputColumns:Array[String]-Array [String] ("eno"); 
val assembler:VectorAssembler = new VectorAssembler () .setInputCols 
(inputColumns). 
setOutputCol ("features"); 
val vecDF: DataFrame = assembler.transform(dflines); 
val lrl:LinearRegression - new LinearRegression(); 
val lr2:LinearRegression = lrl.setFeaturesCol ("features"). 
setLabelCol ("score"). 
setPredictionCol("pre score").setFitIntercept (true); 
val lr3:LinearRegression - lr2.setMaxIter(20).setRegParam(0.1). 
setElasticNetParam(0); 
val lr:LinearRegression = 1r3; 
val lrModel:LinearRegressionModel - lr.fit(vecDF); 
val samplePredictions:DataFrame = lrModel.transform(vecDF); 
samplePredictions.createTempView ("PreScore") ; 
val deviationDF:DataFrame-sqlContext.sql("select round (sum (pow 
(score-pre score,2))/ 
count (features),1) deviation from PreScore") ; 


deviationDF. show () : 


val rowl:Row-Row (14.0): 第 
val row2:Row-Row (16.0); 18 
x 
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val dataList: java.util.List [Row]=new java.util.ArrayList [Row] (); 

dataList.add(rowl) 

dataList.add(row2) 

val dataDF:DataFrame-sqlContext.createDataFrame (dataList, 

structType); 

val feaDF:DataFrame-assembler.transform(dataDF); 

val predictions:DataFrame = lrModel.transform(feaDF); 

val selDataFrame:DataFrame-predictions.selectExpr ("features", 

"round(pre score,1) as prediction"); 

selDataFrame.show 

val predictResult :RDD [Row] -selDataFrame.toDF () . rdd; 

val transRows:RDD[String]-predictResult.map ( (row:Row) =>{ 
val features: DenseVector-row. getAs [DenseVector] ("features"); 
val prediction: Double-row.getAs [Double] ("prediction"); 
features+"\t"+prediction 

11H 

val f:File-new File("/project/scala/SparkML/output/lr"); 

if(f.exists()&&f.isDirectory())delDir(f); 

transRows .saveAsTextFile ("/project/scala/SparkML/output/1r") ; 

sc.stop(); 


} 


(4) 在 Eclipse 中 执行 本 地 化 测试 ， 使 用 Scala 运行 本 地 Spark 应 用 。 
运行 之 后 控制 台 打 印 如 下 : 


4+-------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


features |prediction | 


[14.0] | 60.9 | 
[16.0]| 69:1 | 
+ 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


运行 之 后 本 地 文件 中 输出 如 下 : 


hadoop@CloudDeskTop output]$ pwd 
/project/scala/SparkML/output 
hadoop@CloudDeskTop output]$ cat part-00000 
[14.0] 60.9 
[16.0] 69.1 


18.2.4 ”基于 集群 模式 的 线性 回归 分 析 
1， 集 群 模式 下 线性 回归 的 源码 


package com.bnyw.bigdata.spark.ml.cluster 


import java.io.File 


import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache. spark. api. java. JavaRDD 
import org.apache.spark.ml.feature.VectorAssembler 
import org.apache.spark.ml.linalg.Vector 
import org.apache.spark.ml.linalg.DenseVector 
import org.apache.spark.ml.regression.LinearRegression 
import org.apache.spark.ml.regression.LinearRegressionModel 
import org.apache.spark.rdd.RDD 
import org.apache.spark.sql.Row 
import org.apache.spark.sql.DataFrame 
import org.apache.spark.sql.SQLContext 
import org.apache.spark.sql.types.DataType 
import org.apache.spark.sql.types.DataTypes 
import org.apache. spark. sql.types.structField 
import org.apache. spark. sql.types.structType 
import org.apache.hadoop.fs.Filesystem 
import org.apache.hadoop.conf.Configuration 
import java.net.URI 
import org.apache.hadoop.fs.Path 
object LinearRegressionML ( 
var fs:FileSystem-null; 
t 
val hconf:Configuration-new Configuration(); 
fs-FileSystem.get (new URI ("hdfs: //ns1/") , hconf, "hadoop") ; 
} 
def delDir(file:File) :Unit={ 
if (file.isFile| |file.listFiles() .length==0) { 
file.delete(); 
return; 
} 
val fileList:Array[File]-file.listFiles(); 
fileList.foreach (file=>delDir (file) ); 
file.delete(); 
H 
def getStructType (fieldNames:Array[String],fieldTypes:Array[DataType], 
isNU11S:Array [Boolean] ) :StructType={ 
if(fieldNames.length!-fieldTypes.length||fieldTypes.length!- 
isNU11S.length) return null; 
val size:Int=fieldNames. length 
var i:Int=0; 
var featureField:StructField=null; 
val fieldList:java.util.List[StructField]-new java.util.ArrayList 
[StructField] (); 
while (i«size)( 
featureField-DataTypes.createStructField(fieldNames (i), 
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fieldTypes (i),isNUllS(i)); 
fieldList.add(featureField); 
i=i+l; 
} 
return DataTypes.createStructType (fieldList); 
} 
def mapStringToRowByRDD (rdd:RDD [String]) :RDD[Row]={ 
return rdd.map ( (line: String)-5( 
val fieldVals:Array[String]=line.split('\t"'); 
val dl:java.lang.Double-java.lang.Double.parseDouble (fieldVals 
(0)); 
val d2:java.lang.Double-java.lang.Double.parseDouble (fieldVals 
(1)); 
Row (d1,d2); 
he 
} 
def main(args: Array[String]): Unit = { 
val conf:SparkConf-new SparkConf (); 
conf.setAppName ("Cluster Scala Spark LinearRegressionML") ; 
val sc:SparkContext-new SparkContext (conf); 
val lines:RDD[String]-sc.textFile("/spark/ml/sample/lr", 1); 
val rows:RDD[Row]=mapStringToRowByRDD (lines); 
val structType:StructType-getStructType (Array[String] ("eno", 
"score") ,Array[DataType] 
(DataTypes. DoubleType, DataTypes.DoubleType) , Array [Boolean] 
(false, false) ); 
val sqlContext:SQLContext=new SQLContext (sc): 
val dflines:DataFrame-sqlContext.createDataFrame (rows, structType); 
val inputColumns:Array [String]-Array [String] ("eno"); 
val assembler:VectorAssembler = new VectorAssembler () .setInputCols 
(inputColumns) .setOutputCol ("features"); 
val vecDF: DataFrame = assembler.transform(dflines) ; 
val lrl:LinearRegression = new LinearRegression(); 
val lr2:LinearRegression = lrl.setFeaturesCol ("features"). 
setLabelCol ("score") .setPredictionCol ("pre score"). 
setFitIntercept (true) ; 
val lr3:LinearRegression = 1r2.setMaxIter (20): 
val lr:LinearRegression = 1r3; 
val lrModel:LinearRegressionModel = lr.fit(vecDF); 
val srcRDD:RDD[String]-sc.textFile("/spark/ml/input/lr", 1); 
val srcRow:RDD [Row]-mapStringToRowByRDD (srcRDD) ; 
val dataDF: DataFrame=sqlContext.createDataFrame (srcRow, structType) : 
val feaDF:DataFrame-assembler. transform (dataDF) ; 
val predictions:DataFrame = lrModel.transform(feaDF); 
val selDataFrame:DataFrame-predictions.selectExpr ("features", "round 
(pre score,1) as prediction"); 


val predictResult :RDD[Row]=selDataFrame.toDF() .rdd; 

val transRows:RDD[String]=predictResult .map ( (row:Row) =>{ 
val features:DenseVector-row.getAs [DenseVector] ("features"); 
val prediction:Double-row.getAs [Double] ("prediction"); 
features+"\t"+prediction 

HONG 

val distDir:Path-new Path("/spark/ml/output/lr"); 

if(fs.exists(distDir))fs.delete(distDir, true); 

transRows.saveAsTextFile ("/spark/ml/output/lr"); 

sc.stop(); 


} 
2 局 动 集群 
1) 启动 Zookeeper 集群 


cd zookeeper-3.4.10/bin/ 
./zkServer.sh start 

al = 

ips 

2) 启动 HDFS 集群 


start-dfs.sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-namenode-master01.out 

master02: ssh: connect to host master02 port 22: No route to host 
slave01: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave01.out 

slave03: starting datanode, logging to/software/hadoop-2.7.3/ 
logs/hadoop-hadoop-datanode-s1ave03.out 

slave02: starting datanode, logging to/software/hadoop-2.7.3/ 
logs/hadoop-hadoop-datanode-s1lave02.out 

Starting journal nodes [slave01 slave02 slave03] 

slave02: starting journalnode, logging to/software/hadoop-2.7.3/logs/ 
hadoop-hadoop-journalnode-slave02.out 

slave01: starting journalnode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-journalnode-slave01.out 

slave03: starting journalnode, logging to/software/hadoop-2.7.3/10gs/ 
hadoop-hadoop-journalnode-slave03.out 


3) 启动 Spark 集群 


./start-master.sh 
starting org.apache.spark.deploy.master.Master, logging to/software/ 
spark-2.1.1/10gs/spark-hadoop-org. apache. spark.deploy.master.Master-1- 
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master01.out 

[hadoop@master01 sbin]$ ./start-slaves.sh 
slave01: starting org.apache.spark.deploy.worker.Worker, logging to/ 
software/spark-2.1.1/1logs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1slave0l.out 
slave02: starting org.apache.spark.deploy.worker.Worker, logging to/ 
software/spark-2.1.1/1ogs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave02.out 
slave03: starting org.apache.spark.deploy.worker.Worker, logging to/ 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave03.out 


3. 打包 工程 代码 至 工程 目录 下 的 dist 目录 


[hadoop@CloudDeskTop bin]s pwd 
/project/scala/SparkML/bin 
[hadoop@CloudDeskTop bin]$ 1s 
com 
[hadoop@CloudDeskTop bin]$ jar -cvfe ../dist/LinearRegressionML. jar 
com.bnyw.bigdata.spark.ml.cluster.LinearRegressionML com/ 
[hadoop@CloudDeskTop bin]$ cd ../dist/ 
[hadoop@CloudDeskTop dist]$ 1s 
LinearRegressionML.jar 


4. 准备 样本 数据 
1) 在 集群 上 创建 必要 的 输入 输出 目录 


[hadoop@CloudDeskTop software]$ hdfs dfs -mkdir -p /spark/ml/sample/lr 
[hadoop@CloudDeskTop software]$ hdfs dfs -mkdir -p /spark/ml/input/lr 
[hadoop@CloudDeskTop software]$ hdfs dfs -mkdir -p /spark/ml/output/lr 
[hadoop@CloudDeskTop software]$ hdfs dfs -1s /spark/ml/ 

Found 3 items 


drwxr-xr-x  - hadoop supergroup 0 2017-08-24 00:05 /spark/ml/ 
input/lr 
drwxr-xr-x  - hadoop supergroup 0 2017-08-24 00:05 /spark/ml/ 
output/lr 
drwxr-xr-x - hadoop supergroup 0 2017-08-24 00:05 /spark/ml/ 
sample/lr 


20 上 传 样本 数据 HDFS 集群 目录 


[hadoop@CloudDeskTop lr]$ pwd 

/project/scala/SparkML/sample/lr 
[hadoop@CloudDeskTop lr]$ hdfs dfs -put data /spark/ml/sample/lr/ 
[hadoop@CloudDeskTop lr]$ hdfs dfs -ls /spark/ml/sample/lr/ 


Found 1 items 


-rw-r--r-- 3 hadoop supergroup 50 2017-08-24 00:08 
/spark/ml/sample/lr/data 
[hadoop@CloudDeskTop lr]$ hdfs dfs -cat /spark/ml/sample/lr/data 
1 yi 
12 
17 
18 
E 
21 
34 
37 
42 
0 42 


3) 上 传 需要 处 理 的 源 数据 HDFS 集群 目录 
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hadoop@CloudDeskTop lr]$ pwd 
/project/scala/SparkML/input/lr 
hadoop@CloudDeskTop lr]$ 1s 
data 
hadoop@CloudDeskTop lr]$ hdfs dfs -put data /spark/ml/input/lr/ 
hadoop@CloudDeskTop lr]$ hdfs dfs -1s /spark/ml/input/lr/ 
Found 1 items 
-rw-r--r-- 3 hadoop supergroup 18 2017-08-24 00:16 
/spark/ml/input/lr/data 
hadoop@CloudDeskTop input]$ hdfs dfs -cat /spark/ml/input/lr/data 
14.0 0.0 
16.0 0.0 


4) 在 工程 目录 下 创建 本 地 打包 目录 dist 


[hadoop@CloudDeskTop SparkML]$ pwd 
/project/scala/SparkML 
[hadoop@CloudDeskTop SparkML]$ mkdir -p dist 
[hadoop@CloudDeskTop SparkML]$ 1s 
bin dist input output sample spark-warehouse src 


5. 将 线性 回归 应 用 提交 至 Spark 集群 


[hadoop@master01 bin]$ pwd 
/software/spark-2.1.1/bin 
[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 


--class com.bnyw.bigdata.spark.ml.cluster.LinearRegressionML /project/ 


scala/SparkML/dist/LinearRegressionML. jar 
17/08/24 00:35:01 WARN util.NativeCodeLoader: Unable to load native-hadoop 18 
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library for your platform... 


using builtin-java classes where applicable 


17/08/24 00:35:02 INFO spark.SparkContext: Running Spark version 2.1.1 


17/08/24 00:35:04 INFO spark. SparkEnv: Registering OutputCommitCoordinator 
17/08/24 00:35:04 INFO util.log: Logging initialized @7614ms 
17/08/24 00:35:04 INFO server.Server: jetty-9.2.z-SNAPSHOT 


6 查看 集群 运行 的 输出 结果 


[hadoop@CloudDeskTop ~]$ hdfs dfs -1s /spark/ml/output/lr 


Found 2 items 


0 2017-08-24 00:36 /spark/m1/ 


24 2017-08-24 00:36 /spark/ml/ 


[hadoop@CloudDeskTop ~]$ hdfs dfs -cat /spark/ml/output/lr/part-00000 


-rw-r--r-- 3 hadoop supergroup 
output/lr/ | SUCCESS 

-rw-r--r-- 3 hadoop supergroup 
output/lr/ part-00000 
[14.0] 60.9 

[m6:20]8€69-T 


183 聚 类 分 析 


聚 类 分 析 算 法 有 很 多 ， 常 用 的 聚 类 分 析 算 法 为 K-Means 聚 类 算法 ， 是 一 种 基于 距离 的 


迭代 算法 , 即 在 一 个 N 维 的 空间 中 将 n 个 观察 
离 它 所 在 的 聚 类 中 心 点 比 其 他 的 聚 类 中 心 点 距 


18.3.1 K-Means 聚 类 算法 原理 


实例 分 类 到 K 个 聚 类 中 , 使 每 个 观察 实例 距 


离 更 小 。 


K-Means 聚 类 算法 中 的 每 组 特征 值 Cfeatures) 的 组 合 决定 了 该 组 特征 值 所 对 应 的 类 别 
〈 即 聚 类 函数 值 label)， 因 此 它 的 基础 函数 原理 与 线性 回归 一 致 ， 均 为 通过 特征 值 计 算 函 数 
值 ， 此 处 函数 值 即 聚 类 分 析 的 结果 。 在 线性 回归 分 析 中 ,几乎 每 组 特征 值 的 函数 值 均 不 同 
而 聚 类 分 析 中 往往 多 组 特征 值 的 组 合 均 对 应 到 同一 聚 类 函数 值 。 

聚 类 分 析 的 API 中 无 须 指 定 函 数列 ， 聚 类 分 析 仅 基于 特征 值 的 组 合 推理 各 组 特征 所 属 
的 类 别 ( 育 类 的 质心 )， 其 预测 出 的 类 别 〈 聚 类 的 质心 ) 可 映射 到 实际 的 函数 类 别 中 ， 得 出 


预测 误差 值 。 
18.3.2 聚 类 分 析 过 程 
COD. 在 n 个 观察 实例 中 随机 抽取 k 个 点 ( 


因为 需要 分 成 k 个 类 别 ) 作 为 初始 聚 类 中 心 


点 ， 然 后 计算 所 有 的 观察 点 距离 各 自 最 近 的 聚 类 中 心 点 并 将 其 划 入 对 应 的 聚 类 中 。 
D 求 出 各 个 聚 类 的 中 心 点 《质心 ， 即 聚 类 范围 中 距离 各 个 观察 点 最 近 的 中 心 点 ) 作 
为 新 的 聚 类 中 心 点 ， 然 后 再 次 计算 所 有 的 观察 点 距离 各 自 最 近 的 新 的 聚 类 中 心 点 并 将 其 划 


入 对 应 的 聚 类 中 。 
(3) 重复 步骤 (2)， 反 复 和 迭代， 直到 新 的 聚 类 中 心 点 与 前 一 个 聚 类 中 心 点 重合 ， 或 者 


距离 满足 设 定 条 件 为 止 ， 结 束 迭 代 。 


18.3.3 基于 本 地 模式 的 聚 类 算法 分 析 


1. 创建 km 子 文件 夹 
在 Scala 工程 SparkML 目录 下 的 input、output、sample 等 子 目录 下 分 别 创建 km 子 文 


2. 构建 样本 数据 


3. 构建 应 用 数据 


4. 基于 本 地 模式 的 聚 类 分 析 的 源码 第 
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import java.io.File 
import org.apache.spark.rdd.RDD 
import org.apache. spark. SparkConf 
import org.apache. spark. SparkContext 
import org.apache. spark. sql. sQLContext 
import org.apache. spark. sql.types.DataTypes 
import org.apache. spark. sql .Row 
import org.apache. spark. sql .DataFrame 
import org.apache. spark. sql.types.structType 
import org.apache. spark. sql.types.structField 
import org.apache. spark. sql.types.DataType 
import org.apache.spark.ml.clustering.KMeans 
import org.apache.spark.ml. feature. VectorAssembler 
import org.apache.spark.ml.clustering.KMeansModel 
import org.apache.spark.ml.feature.StringIndexer 
import org.apache.spark.ml.Pipeline 
import org.apache.spark.ml.PipelineModel 
import org.apache.10g4j.Level 
import org.apache.1log4j.Logger 
import org.apache.spark.sql.Dataset 
object KMeansML ( 
def delDir(file:File):Unit-( 
if(file.isFile||file.listFiles().length--0)( 
file.delete(); 
return; 
} 
val fileList:Array[File]=file.listFiles(); 
fileList.foreach (file=>delDir (file) ); 
file.delete(); 
b 


def getStructType (fieldNames:Array [String], fieldTypes:Array [DataType], 


isNUllS: 
Array [Boolean] ) :StructType={ 


if (fieldNames. length!-fieldTypes. length| |fieldTypes.length!=isNU11S. 


length)return null, 
val size:Int-fieldNames. length 
var i:Int=0; 

var featureField:StructField=null; 


val fieldList:java.util.List[StructField]-new java.util.ArrayList 


[StructField] (); 

while (i«size)( 
featureField=DataTypes.createStructField(fieldNames (i), 
fieldTypes (i),isNUllS(i)); 
fieldList .add(featureField) ; 
i=i+l; 


$ 
return DataTypes.createstructType (fieldList); 
} 
def rddstringToRow (lines:RDD[String]) :RDD[Row]={ 
val rows:RDD[Row]=lines.map ( (line:String) =>{ 
val fieldVals:Array[String]-line.split('NVt'); 
var fl:Int-0; 
val f2:Int-fieldVals (1).toInt; 
if ("man".equalsIgnoreCase (fieldVals(0)))f1-1; 
if (2==fieldVals.length) { 
Row (f1,f2); 
yelse{ 
var fn:Int=0; 
if ("marry" .equalsIgnoreCase (fieldVals (2) ) ) fn=1; 
Row(f1,f2,fn); 
} 
he 
return rows 
bi 
def main(args: Array[string]): Unit = ( 
Logger.getLogger ("org.apache. spark") . setLevel (Level .WARN) 
val conf:SparkConf-new SparkConf (): 
conf.setAppName ("Local Scala Spark KMeansML") ; 
conf.setMaster ("local"); 


val sc:SparkContext-new SparkContext (conf); 

val sqlContext:SQLContext-new SQLContext (sc); 

val structType:StructType-getStructType (Array [String] ("gender", "age", 
"marry"), 

Array[DataType] (DataTypes.IntegerType,DataTypes.IntegerType, 
DataTypes.IntegerType),Arra y[Boolean] (false, false, false) ); 

val lines:RDD[String]=sc.textFile("/project/scala/SparkML/sample/km", 1); 
val rows:RDD[Row]=rddStringToRow (lines); 

val dflines:DataFrame-sqlContext.createDataFrame (rows, structType); 
val inputColumns:Array[String]-Array [String] ("gender", "age") ; 

val assembler:VectorAssembler = new VectorAssembler().setInputCols 
(inputColumns) 

-setOutputCol ("features"); 

val vecDF: DataFrame = assembler.transform(dflines); 

val kmeans:KMeans-new KMeans () ; 

kmeans.setFeaturesCol ("features"); 

kmeans.setK(3); 

kmeans.setMaxIter (20); 


kmeans.setPredictionCol ("pre marry"); 第 
kmeans.setInitMode ("k-means| |"); 18 
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val kmeansModel:KMeansModel = kmeans.fit (vecDF) ; 
val samplePredictions:DataFrame = kmeansModel.transform(vecDF); 
samplePredictions.createTempView ("SampleTab") ; 
var selDF:DataFrame-sqlContext.sql("select marry,pre marry,count 
(features) level from SampleTab group by marry,pre marry order by level 
desc"); 
SelDF.createTempView ("midl"); 
SelDF.show(50); 
selDF-sqlContext.sql("select pre marry,max(level) maxLevel from midl 
group by pre marry"); 
SelDF.createTempView ("mid2") ; 
SelDF.show (50); 
selDF-sqlContext.sql("select midl.marry,midl.pre marry,mid2.maxLevel 
from midl inner join mid2 on midl.pre marry-mid2.pre marry and midl. 
level=mid2.maxLevel") ; 
selDF.createTempView ("premodel") ; 
SelDF.show (50); 
val cost:Double - kmeansModel.computeCost (vecDF) ; 
println ("cost:"-4cost) 
val requireLines:RDD[String]=sc.textFile("/project/scala/SparkML/ 
input/km", 1); 
val requireRows:RDD[Row]-rddStringToRow (requireLines); 
val requireStructType:StructType-getStructType (Array[String] 
("gender","age"), 
Array[DataType] (DataTypes.IntegerType,DataTypes.IntegerType),Array 
[Boolean] (false,false)); 
val requireDFLines:DataFrame-sqlContext.createDataFrame (requireRows, 
requireStructType); 
val requireVecDF: DataFrame = assembler.transform(requireDFLines); 
val requirePredictions:DataFrame = kmeansModel.transform(requireVecDF); 
requirePredictions.createTempView ("srcdata"); 
val resultDF:DataFrame-sqlContext.sql("select srcdata. 
gender,srcdata.age,srcdata.pre marry,premodel.marry from srcdata, 
premodel where srcdata.pre marry-premodel.pre marry"); 
resultDF.show(); 
val genderMap-Map ( (1-»"man"), (0-»"women")); 
val marryMap-Map ((1->"marry"), (0-»"unmarry")); 
val resultRDD:RDD[Row]-resultDF.toDF().rdd; 
val outRDD:RDD[String]-resultRDD.map ((row:Row)-»( 
val age:Int-row.getAs[Int] ("age"); 
val gender:Int-row.getAs[Int] ("gender"); 
val marry:Int-row.getAs[Int] ("marry"); 
genderMap (gender) +"\t"+age+"\t"+marryMap (marry) 
H? 
val fp:File=new File("/project/scala/SparkML/output/km"); 


if (fp.exists ())delDir (fp) 
outRDD.saveAsTextFile ("/project/scala/SparkML/output/km") ; 
sc.stop(): 

} 

} 


5. 直接 在 Eclipse 中 执行 本 地 测试 并 查看 结果 


[hadoop@CloudDeskTop km]$ pwd 
/project/scala/SparkML/output/km 

[hadoop@CloudDeskTop km]$ 1s 
part-00000 part-00019 part-00038 part-00057 part-00076 part-00095 
part-00114 part-00133 part-00152 part-00171 part-00190 
part-00001 part-00020 part-00039 part-00058 part-00077 part-00096 
part-00115 part-00134 part-00153 part-00172 part-00191 
part-00017 part-00036 part-00055 part-00074 part-00093 part-00112 
part-00131 part-00150 part-00169 part-00188 
part-00018 part-00037 part-00056 part-00075 part-00094 part-00113 
part-00132 part-00151 part-00170 part-00189 


[hadoop@CloudDeskTop km]$ cat # 
women 19 unmarry 
man 24 unmarry 
women 26 marry 
women 52 marry 


18.3.4 基于 集群 模式 的 聚 类 算法 分 析 
1， 基 于 集群 模式 的 育 类 算法 分 析 的 源码 


package com.bnyw.bigdata.spark.ml.cluster 
import java.io.File 

import org.apache.spark.rdd.RDD 

import org.apache.spark.SparkConf 

import org.apache.spark.SparkContext 

import org.apache.spark.sql.SQLContext 

import org.apache.spark.sql.types.DataTypes 
import org.apache.spark.sql.Row 

import org.apache.spark.sql.DataFrame 

import org.apache.spark.sql.types.StructType 
import org.apache.spark.sql.types.StructField 
import org.apache.spark.sql.types.DataType 
import org.apache.spark.ml.clustering.KMeans 第 


import org.apache.spark.ml.feature.VectorAssembler 


18 
* 


Spark HEFT 


import org.apache.spark.ml.clustering.KMeansModel 


Hadoop*Spark AHER (RE) 


import org.apache.spark.ml.feature.StringIndexer 
import org.apache.spark.ml.Pipeline 
import org.apache.spark.ml.PipelineModel 
import org.apache.1log4j.Level 
import org.apache.10g4j.Logger 
import org.apache.spark.sql.Dataset 
import org.apache.hadoop.fs.FileSystem 
import java.net.URI 
import org.apache.hadoop.conf.Configuration 
import org.apache.hadoop.fs.Path 
object KMeansML ( 
var fs:FileSystem-null; 
t 
val hconf:Configuration-new Configuration(); 
fs-FileSystem.get (new URI ("hdfs://ns1/") , hconf, "hadoop") ; 
) 
def delDir(file:File):Unit-( 
if(file.isFile||file.listFiles().length--0)( 
file.delete(); 
return; 
) 
val fileList:Array[File]-file.listFiles(); 
fileList.foreach(file-»delDir(file)); 
file.delete(); 
} 
def getStructType (fieldNames:Array [String] , fieldTypes:Array 
[DataType],isNU11S: 
Array [Boolean] ) :StructType={ 
if (fieldNames.length!=fieldTypes.length||fieldTypes.length! = 
isNU11S.length) return null; 
val size:Int=fieldNames.length 
var i:Int=0; 
var featureField:StructField=null; 
val fieldList:java.util.List[StructField]-new java.util. 
ArrayList [StructField] (); 
while (i<size) { 
featureField-DataTypes.createStructField (fieldNames (i), 
fieldTypes (i), 
isNU11S (i)); 
fieldList.add(featureField) ; 
i=i+l; 
} 
return DataTypes.createStructType (fieldList); 
H 
def rddstringToRow (lines:RDD[String]) :RDD[Row]={ 


val rows:RDD[Row]=lines.map ((line:String) =>{ 
val fieldVals:Array[String]-line.split('Nt'); 
var fl:Int-0; 
val f2:Int-fieldVals (1) .toInt; 
if("man".equalsIgnoreCase (fieldVals (0)))f1-1, 
if(2--fieldVals.length)( 
Row(f1,f2); 
yelse{ 
var fn:Int-0; 
if ("marry".equalsIgnoreCase (fieldVals (2)))fn-1; 
Row(f1,f2,fn); 
J 
); 
return rows 
} 
def main(args: Array[String]): Unit = { 
Logger. getLogger ("org.apache.spark") .setLevel (Level .WARN) 
val conf:SparkConf-new SparkConf (); 
conf.setAppName ("Cluster Scala Spark KMeansML") ; 
val sc:SparkContext=new SparkContext (conf) ; 
val sqlContext:SQLContext=new SQLContext (sc): 
val structType:StructType=getStructType (Array[String] ("gender", 
"age", "marry"), 
Array [DataType] (DataTypes. IntegerType, DataTypes .IntegerType, DataTypes. 
IntegerType),Arra y[Boolean] (false, false, false) ); 
val lines:RDD[String]=sc.textFile("/spark/ml/sample/km", 1); 
val rows:RDD[Row]-rddStringToRow (lines); 
val dflines:DataFrame-sqlContext.createDataFrame (rows, structType); 
val inputColumns:Array [String]-Array [String] ("gender", "age") ; 
val assembler:VectorAssembler = new VectorAssembler(). 
setInputCols (inputColumns) .setOutputCol ("features"); 
val vecDF: DataFrame = assembler.transform(dflines); 
val kmeans:KMeans-new KMeans(); 
kmeans.setFeaturesCol ("features"); 
kmeans.setK (3) ; 
kmeans.setMaxIter (20); 
kmeans.setPredictionCol ("pre marry"); 
kmeans. set InitMode ("k-means | |"); 
val kmeansModel:KMeansModel = kmeans.fit (vecDF) : 
val samplePredictions:DataFrame = kmeansModel.transform(vecDF) ; 
samplePredictions.createTempView ("SampleTab") ; 
var selDF:DataFrame=sqlContext.sql("select marry,pre marry,count 
(features) level from SampleTab group by marry,pre marry order by level 
desc"); 


selDF.createTempView ("midl"); 
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SelDF.show (50); 

selDF-sqlContext.sql("select pre marry,max(level) maxLevel from midl 
group by pre marry"); 

SelDF.createTempView ("mid2"); 

SelDF.show (50); 

selDF=sqlContext.sql ("select midl.marry,midl.pre marry,mid2.maxLevel 
from midl inner join mid2 on midl.pre marry-mid2.pre marry and midl. 
level=mid2.maxLevel") ; 

SelDF.createTempView ("premodel") ; 

se1DF.show (50) ; 

val cost:Double = kmeansModel.computeCost (vecDF) ; 
printin("cost:"+cost) 

val requireLines:RDD[String]=sc.textFile("/spark/ml/input/km", 1); 
val requireRows :RDD[Row]=rddStringToRow (requireLines) ; 

val requireStructType: StructType=getStructType (Array[String] ("gender", 
Pages) 

Array [DataType] (DataTypes.IntegerType, DataTypes. IntegerType) ,Array[ 
Boolean] (false,false)), 

val requireDFLines:DataFrame-sqlContext.createDataFrame (requireRows, 
requireStructType) ; 

val requireVecDF: DataFrame = assembler.transform(requireDFLines) ; 
val requirePredictions:DataFrame = kmeansModel. 
transform(requireVecDF) ; 
requirePredictions.createTempView ("srcdata") ; 

val resultDF:DataFrame-sqlContext.sql("select srcdata.gender, 
srcdata.age,srcdata.pre marry,premodel.marry from srcdata,premodel 
where srcdata.pre marry-premodel.pre marry"); 

resultDF.show(); 


val genderMap-Map ( (1-»"man"), (0-»"women")); 
val marryMap-Map ((1->"marry"), (0-»"unmarry")); 
val resultRDD:RDD[Row]-resultDF.toDF().rdd; 
val outRDD:RDD[String]-resultRDD.map ((row:Row)-»( 

val age:Int-row.getAs[Int] ("age"); 

val gender:Int-row.getAs[Int] ("gender"); 

val marry:Int-row.getAs[Int] ("marry"); 

genderMap (gender) +"\t"+age+"\t"+marryMap (marry) 
H): 
val output:Path-new Path ("/spark/ml/output/km") ; 
if (fs.exists (output) ) fs.delete (output, true); 
outRDD.saveAsTextFile("/spark/ml/output/km"); 
sc.stop(); 


2. 打包 到 dist 目录 


[hadoop@CloudDeskTop bin]$ pwd 
/project/scala/SparkML/bin 
[hadoop@CloudDeskTop bin]$ jar -cvfe ../dist/KMeansML.jar 
com.bnyw.bigdata.spark.ml.cluster.KMeansML com/ 
[hadoop@CloudDeskTop bin]$ 1s ../dist/ 
KMeansML.jar LinearRegressionML. jar 


3 局 动 集群 
1) 启动 Zookeeper 集群 


cd zookeeper-3.4.10/bin/ 
./zkServer.sh start 

cd = 

jps 

2) 启动 HDFS 集群 


start-dfs.sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-namenode-master01.out 
master02: ssh: connect to host master02 port 22: No route to host 
slave01: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave01.out 

slave03: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave03.out 

slave02: starting datanode, logging to /software/hadoop-2.7.3/logs/ 
hadoop-hadoop-datanode-slave02.out 

Starting journal nodes [slave01 slave02 slave03] 

slave02: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave02.out 
slave01: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave01.out 
slave03: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave03.out 


3) 启动 Spark 集群 


./start-master.sh 
starting org.apache.spark.deploy.master.Master, logging to/software/ 
spark-2.1.1/10gs/spark-hadoop-org. apache. spark. deploy.master.Master-1- 


master01.0ut 


[hadoop@master01 sbin]$ ./start-slaves.sh 第 
slave01: starting org.apache.spark.deploy.worker.Worker, logging to / 48 
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Software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave01.out 

slave02: starting org.apache.spark.deploy.worker.Worker, logging to / 
Software/spark-2.1.1/1ogs/spark-hadoop-org.apache.spark.deploy.worker. 
Worker-1-slave02.out 

slave03: starting org.apache.spark.deploy.worker.Worker, logging to / 
software/spark-2.1.1/10gs/spark-hadoop-org.apache.spark.deploy.worker. 


Worker-1-slave03.out 


4. 准备 聚 类 样本 数据 
1) 创建 必要 的 HDFS 路 径 


[hadoop@master01 software]$ hdfs dfs -ls /spark/ 

Found 2 items 

drwxr-xr-x - hadoop supergroup 0 2017-08-20 06:46 /spark/input 
drwxr-xr-x  - hadoop supergroup 0 2017-08-21 00:27 /spark/streaming 
[hadoop@master01 software]$ hdfs dfs -mkdir -p 

/spark/m1/ (sample, input, output}/{1lr, km} 

[hadoop@master01 software]$ hdfs dfs -ls /spark/ 

Found 3 items 


drwxr-xr-x - hadoop supergroup 0 2017-08-20 06:46 /spark/input 
drwxr-xr-x  - hadoop supergroup 0 2017-08-27 04:44 /spark/ml 
drwxr-xr-x  - hadoop supergroup 0 2017-08-21 00:27 /spark/streaming 


[hadoop@master01 software]$ hdfs dfs -ls /spark/ml 
Found 3 items 


drwxr-xr-x  - hadoop supergroup 0 2017-08-27 04:44 /spark/ml/input 
drwxr-xr-x  - hadoop supergroup 0 2017-08-27 04:44 /spark/ml/output 
drwxr-xr-x  - hadoop supergroup 0 2017-08-27 04:44 /spark/ml/sample 


2) 上 传 聚 类 算法 样本 数据 


hadoop@CloudDeskTop SparkML]S pwd 

/project/scala/SparkML 

hadoop@CloudDeskTop SparkML]$ hdfs dfs -put sample/km/data /spark/ml/sample/km/ 
hadoop@CloudDeskTop SparkML] $ hdfs dfs -put input/km/data /spark/ml/input/km/ 


3) 提交 到 类 应 用 到 Spark 集群 


hadoop@CloudDeskTop bin]$ pwd 
/software/spark-2.1.1/bin 


hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 
--class com.bnyw.bigdata.spark.ml.cluster.KMeansML /project/scala/ 
SparkML/dist/KMeansML.jar 1 


4) 查看 聚 类 算法 分 析 结 果 


[hadoop@CloudDeskTop dist]$ hdfs dfs -ls /spark/ml/output/km 


Found 201 items 


-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:08 

/spark/ml/output/km/ SUCCESS 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/Spark/ml/output/km/part-00000 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/sSpark/ml/output/km/part-00001 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/ spark/ml/output/km/part-00002 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/ spark/ml/output/km/part-00003 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/ spark/ml/output/km/part-00004 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/ spark/ml/output/km/part-00005 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/spark/ml/output/km/part-00006 
-rw-r--r-- 3 hadoop supergroup D 2017-08-27 09:07 
/spark/ml/output/km/part-00007 
-rw-r--r-- 3 hadoop supergroup O 2017-08-27 0S207 
/spark/ml/output/km/part-00008 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/ spark/ml/output/km/part-00009 
-rw-r--r-- 3 hadoop supergroup 0 201 7/-06-27 05207: 
/ spark/ml/output/km/part-00010 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05:07 
/spark/ml/output/km/part-00011 
-rw-r--r-- 3 hadoop supergroup 0 2017-08-27 05-07 


提示 : 由 于 篇 幅 所 限 ， 更 多 的 日 志 打印 输出 在 本 书 中 略 去 。 
[hadoop@CloudDeskTop dist]$ hdfs dfs -cat /spark/ml/output/km/* 
women 19 unmarry 

man 24 unmarry 

man 25 unmarry 

man 22 unmarry 

man 23 unmarry 

women 22 unmarry 

women 23 unmarry 

women 24 unmarry 

women 25 unmarry 

women 20 unmarry 

man 34 marry 

man 26 marry 

women 26 marry 


women 52 marry 第 
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184 协同 过 滤 


协同 过 滤 是 推荐 系统 中 应 用 最 成 功 的 一 种 算法 ， 其 宗旨 是 根据 数据 之 间 的 相关 性 查找 
数据 间 潜 在 的 相似 度 ， 基 于 相关 性 的 描述 在 不 同 的 业务 领域 中 有 不 同 的 抽象 。 以 下 将 电 商 
领域 中 的 推荐 系统 作为 实例 讲解 协同 过 滤 在 推荐 系统 中 的 算法 。 


18.4.1 个 性 化 推荐 算法 


(1) User-Based: 基于 用 户 特征 相似 度 计算 , 具备 相同 特征 的 用 户 将 被 推荐 相同 的 商品 。 
(2) Item-Based: 基于 商品 特征 相似 度 计算 ， 具备 相 同 特征 的 商品 将 会 被 推荐 给 同一 
个 用 户 。 


18.4.2 ”相关 性 推荐 算法 


1， 基 于 用 户 相似 度 的 计算 

若 两 个 用 户 喜 欢 同 一 件 商品 ， 则 认为 这 两 个 用 户 具备 某 种 潜在 特征 上 的 相似 度 。 当 模 
型 训练 完毕 ， 若 其 中 某 一 用 户 喜 欢 A 商品 ， 系 统 将 根据 个 性 化 相似 度 自 动 为 男 一 用 户 推荐 
A 商品 。 即 不 同 的 用 户 通 过 相同 的 商品 作为 桥梁 建立 起 相似 度 。 

2. 基于 商品 的 相似 度 计算 

若 某 一 用 户 喜欢 A 商品 的 同时 还 喜欢 B 商品 ， 那 么 系统 将 自动 为 喜欢 A 商品 的 另 一 
用 户 推 荐 B 商品 ， 即 不 同 的 商品 通过 相同 的 用 户 作 为 桥梁 建立 起 相似 度 。 

提示 : 相关 性 推荐 算法 的 思想 出 发 点 是 “ 物 以 类 聚 、 人 以 群 分 ”。 


18.4.3 基于 本 地 的 协同 过 滤 算 法 分 析 


1. 创建 als 子 文件 夹 
在 Scala 工程 SparkML 目录 下 的 input、output、sample 等 子 目 录 下 分 别 创建 als 子 文 
件 夹 。 


[hadoop@CloudDeskTop SparkML]$ pwd 

/project/scala/SparkML 
[hadoop@CloudDeskTop SparkML]$ mkdir -p {input, output, sample}/km 
[hadoop@CloudDeskTop SparkML]$ tree {input, output, sample} 

input 

| als 

Fm 


L— ir 


output 
| als 
L— km 


一 一 1r 


sample 


| als 


2 构建 协同 过 滤 样 本 数据 


3 构建 协同 过 小 应 用 数据 


4. 基于 本 地 协同 过 滤 分 析 的 源码 
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import 
import 
import 
import 
import 
object 


org.apache. spark. sql. types.StructField 
org.apache. spark. rdd.RDD 
org.apache. spark. sql .Row 
org.apache. spark. sql . DataFrame 
org.apache.spark.ml.recommendation.ALSModel 
ALSML ( 


def delDir(file:File):Unit-( 


} 


if (file.isFile||file.listFiles() .length==0) { 
file.delete(); 
return; 
) 
val fileList:Array[File]-file.listFiles(); 
fileList.foreach(file-»delDir(file)); 
file.delete(); 


def getStructType (fieldNames:Array[String],fieldTypes:Array 
[DataType] , isNUllS: 
Array [Boolean] ) :StructType={ 


aie 


(fieldNames.length!=fieldTypes.length| |fieldTypes.length!= 


isNU11S.length) return null; 
val size:Int=fieldNames.length 
var i:Int=0; 


var featureField:StructField=null; 


val fieldList:java.util.List[StructField]=new java.util. 
ArrayList [StructField] (); 
while (i<size) { 


) 


featureField-DataTypes.createStructField (fieldNames (i), 
fieldTypes (i),isNUllS(i)); 

fieldList.add(featureField); 

it=1; 


return DataTypes.createStructType (fieldList); 


) 


def rddstringToRow (lines:RDD[String]) :RDD[Row]={ 
val rows:RDD[Row]=lines.map ((line:String) =>{ 


val fieldVals:Array[String]=line.split('\t"'); 
var f1:Int-fieldVals (0) .toInt; 
val f2:Int-fieldVals (1) .toInt; 
if (2==fieldVals.length) { 
Row (f1, £2); 
)else( 
var fn:Double-fieldVals (2) .toDouble; 
Row(f1,f2,fn); 


H3 


return rows; 

} 

def main(args: Array[String]): Unit = { 
Logger. getLogger ("org.apache.spark") .setLevel (Level .WARN) ; 
val conf:SparkConf-new SparkConf (); 
conf.setAppName ("Local Scala Spark ALSML") ; 
conf.setMaster ("local"); 
val sc:SparkContext=new SparkContext (conf) ; 
val sqlContext:SQLContext-new SQLContext (sc); 
val structType:StructType-getStructType (Array[String] ("userId", 
"itemId","rating"), 
Array [DataType] (DataTypes.IntegerType, DataTypes.IntegerType, 
DataTypes.DoubleType) , Array[Boolean] (false, false, false) ); 
val lines:RDD[String]=sc.textFile("/project/scala/SparkML/sample/als", 1); 
val rows:RDD[Row]-rddStringToRow (lines); 
val dflines:DataFrame-sqlContext.createDataFrame (rows, structType); 
val als:ALS-new ALS(); 
als.setMaxIter (10); 
als.setUserCol ("userId"); 
als.setItemCol ("itemId") ; 
als.setRatingCol ("rating"): 
als.setPredictionCol ("pre rating"); 
val alsModel:ALSModel=als.fit (dflines) ; 
val samplePredictions:DataFrame = alsModel.transform(dflines) ; 
samplePredictions.show(); 
samplePredictions.createTempView ("samplePreView"); 
val deviationDF:DataFrame-sqlContext.sql("select round (sum( 
pow(rating-pre rating, 2))/count (userId),5) deviation from samplePreView"); 
deviationDF.show() 
val appLines:RDD[String]-sc.textFile ("/project/scala/SparkML/input/ 
atsa: Ds 
val appRows:RDD[Row]=rddStringToRow (appLines) : 
val appStructType:StructType-getStructType (Array [String] ("userId", 
"itemId"),Array [DataType] (DataTypes.IntegerType, DataTypes. 
IntegerType) ,Array [Boolean] (false, false) ); 
val appDflines:DataFrame-sqlContext.createDataFrame (appRows, 
appStructType); 
val appPredictions:DataFrame = alsModel.transform(appDflines); 
appPredictions.show(); 
appPredictions.createTempView ("appPreView") ; 
val appResult:DataFrame=sqlContext.sql ("select mid.userId,ap.itemId, 
mid.maxRating fro 


(select userId,max(pre rating) maxRating from appPreView group by 


UserId) 


mid, appPreView ap where mid.maxRating-ap.pre rating order by userId"); 18 
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5 本 地 运行 聚 类 分 析 的 应 用 
1) 预测 样本 数据 结果 


2) 预测 样本 数据 方差 评估 


3) 预测 实际 应 用 数据 结果 


4) 预测 实际 应 用 数据 分 析 统 计 推荐 结果 


| 2| 2| 6.504319] 
1 61 | NaN| 
| 6l 21 NaN | 


若 实际 应 用 数据 中 出 现 的 userld 在 样本 中 从 未 出 现 ， 则 无 法 进行 预测 ， 显 示 为 NaN。 
协同 过 滤 的 基本 思想 是 统计 分 析 不 同人 群 的 偏好 ， 即 通过 相同 的 itemld 建立 不 同 userld 之 
间 的 关联 或 通过 相同 的 userTd 建立 不 同 itemId 之 间 的 关联 。 如 果 在 建 模 训练 时 没有 覆盖 到 
某 个 userld， 则 无 法 实现 对 该 userld 的 预测 和 推荐 。 

18.4.4 基于 集群 的 协同 过 滤 算 法 分 析 


1， 局 动 集群 
1) 启动 Zookeeper 集群 


cd zookeeper-3.4.10/bin/ 
./zkServer.sh start 

Ca 

ips 

2) 启动 HDFS 集群 


Stanb-dts-sh 

Starting namenodes on [master01 master02] 

master01: starting namenode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-namenode-master01.out 
master02: ssh: connect to host master02 port 22: No route to host 
slave01: starting datanode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-datanode-slave01.out 
slave03: starting datanode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-datanode-slave03.out 
slave02: starting datanode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-datanode-slave02.out 
Starting journal nodes [slave01 slave02 slave03] 

slave02: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave02.out 
slave01: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave01.out 
slave03: starting journalnode, logging to 
/software/hadoop-2.7.3/10gs/hadoop-hadoop-journalnode-slave03.out 


3) 启动 Spark 集群 


./start-master.sh 
starting org.apache.spark.deploy.master.Master, logging to/software/ 


spark-2.1.1/10gs/spark-hadoop-org. apache. spark.deploy.master.Master-1- 
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2. 准备 协同 过 滤 样 本 数据 
1) 创建 必要 的 集群 目录 


2) 上 传 本 地 测试 数据 到 HDFS 集群 


3) 基于 集群 模式 的 协同 过 滤 的 源码 


package com.bnyw.bigdata.spark.ml.cluster 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
object 


org.apache.1log4j.Level 
org.apache.10g4j.Logger 
org.apache.spark.SparkConf 
org.apache.spark.sql.SQLContext 
org.apache.spark.SparkContext 
org.apache.spark.ml.recommendation.ALS 
java.io.File 
org.apache.spark.sql.types.DataTypes 
org.apache.spark.sql.types.DataType 
org.apache.spark.sql.types.StructType 
org.apache.spark.sql.types.StructField 
org.apache.spark.rdd.RDD 
org.apache.spark.sql.Row 
org.apache.spark.sql.DataFrame 
org.apache.spark.ml.recommendation.ALSModel 
org.apache.hadoop.fs.FileSystem 
java.net.URI 
org.apache.hadoop.conf.Configuration 
org.apache.hadoop.fs.Path 

ALSML ( 


var fs:FileSystem-null; 


t 


val hconf:Configuration-new Configuration(); 


fs-FileSystem.get (new URI ("hdfs://ns1/") , hconf, "hadoop") ; 


) 


def getStructType (fieldNames:Array[String],fieldTypes:Array[DataType], 
isNUllS: 
Array[Boolean]):StructType-( 


if(fieldNames.length!-fieldTypes.length||fieldTypes.length!- 
isNUllS.length)return null; 
val size:Int-fieldNames.length 


var i:Int-0; 


var featureField:StructField-null; 


val fieldList:java.util.List[StructField]-new java.util.ArrayList 
[StructField] (); 
while (i<size) { 


featureField=DataTypes.createStructField(fieldNames (i), 


fieldTypes (i) ,isNU11S(i)); 
fieldList.add(featureField) ; 


i+=1; 
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return DataTypes.createStructType (fieldList) ; 
} 
def rddStringToRow(lines:RDD[String]) :RDD[Row]={ 
val rows:RDD[Row]=lines.map ((line:String)=>{ 
val fieldVals:Array[String]=line.split("\t"'); 
var f1:Int-fieldVals (0) .toInt; 
val f2:Int-fieldVals(1) .toInt; 
if(2--fieldVals.length) { 
Row (f1, £2); 
else 
var fn:Double=fieldVals (2) .toDouble; 
Row(f1,f2,fn); 
} 
); 
return rows 
} 
def main(args: Array[String]): Unit = { 
Logger. getLogger ("org.apache.spark") .setLevel (Level .WARN) ; 
val conf:SparkConf-new SparkConf(); 
conf.setAppName ("Cluster Scala Spark ALSML"); 
val sc:SparkContext-new SparkContext (conf); 
val sqlContext:SQLContext-new SQLContext (sc); 
val structType:StructType-getStructType (Array[String] ("userId", 
"itemId","rating"), 
Array [DataType] (DataTypes. IntegerType, DataTypes.IntegerType, 
DataTypes.DoubleType) , Array [Boolean] (false, false, false) ); 
val lines:RDD[String]=sc.textFile("/spark/ml/sample/als", 1); 
val rows:RDD[Row]-rddStringToRow (lines); 
val dflines:DataFrame-sqlContext.createDataFrame (rows, structType); 
val als:ALS-new ALS(); 
als.setMaxIter (10); 
//als.setRegParam(0.16); 
als.setUserCol ("userId"); 
als.setItemCol ("itemId"); 
als.setRatingCol ("rating"); 
als.setPredictionCol("pre rating"); 
val alsModel:ALSModel=als.fit(dflines) ; 
val samplePredictions:DataFrame = alsModel.transform(dflines) ; 
samplePredictions.createTempView ("samplePreView") ; 
val deviationDF:DataFrame=sqlContext.sql ("select round (sum (pow 
(rating-pre rating, 2)) 
/count (userId),5) deviation from samplePreView") ; 
deviationDF. show () 
val appLines:RDD[String]=sc.textFile("/spark/ml/input/als", 1); 
val appRows:RDD [Row] -rddstringToRow (appLines) ; 


val appStructType:StructType=getStructType (Array[String] ("userId", 
"itemId"), 
Array [DataType] (DataTypes.IntegerType, DataTypes.IntegerType) , 
Array [Boolean] (false, false) ); 
val appDflines :DataFrame=sqlContext .createDataFrame (appRows, 
appStructType) ; 
val appPredictions:DataFrame = alsModel.transform(appDflines) ; 
appPredictions.createTempView ("appPreView") ; 
val appResult:DataFrame-sqlContext.sql ("select mid.userId,ap. 
itemId,mid.maxRating from (select userId,max(pre rating) maxRating from 
appPreView group by userId) mid,appPreView ap where mid.maxRating= 
ap.pre rating order by userId"); 
val resultRDD:RDD[Row]-appResult.rdd; 
val outputRDD:RDD[String]-resultRDD.map ( (row:Row)-»( 
val userId:Int-row.getAs[Int] ("userId"); 
val itemId:Int-row.getAs [Int] ("itemId") ; 
val maxRating:Float=row.getAs [Float] ("maxRating") ; 
userId+"\t"+itemId+"\t"+maxRating 
Di 
val dist:Path=new Path("/spark/ml/output/als") ; 
if (fs.exists (dist) )fs.delete(dist, true); 
outputRDD.saveAsTextFile ("/spark/ml/output/als"); 


) 
3. 打包 工程 到 dist 目录 


hadoop@CloudDeskTop bin]$ pwd 
/project/scala/SparkML/bin 
hadoop@CloudDeskTop bin]$ jar -cvfe ../dist/ALSML.jar com.bnyw.bigdata. 
spark.ml.cluster.ALSML com/ 
hadoop@CloudDeskTop bin]$ 1s ../dist/ 
ALSML.jar KMeansML.jar LinearRegressionML. jar 


4， 提 交 协 同 过 滤 应 用 到 Spark 集群 


hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 
--class com.bnyw.bigdata.spark.ml.cluster.ALSML /project/scala/SparkML/ 
dist/ALSML.jar 

17/08/30 09:09:14 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 
17/08/30 09:09:15 WARN spark.SparkContext: Support for Java 7 is deprecated 
as of Spark 2.0.0 


17/08/30 09:09:36 INFO handler.ContextHandler: Started o.s.j.s. 


ServletContextHandler@de28c5e(/static/sql, null, AVAILABLE, 6Spark] 18 
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5. 查看 协同 过 滤 算法 的 推荐 结果 


第 19 章 基于 电力 能 源 的 大 数据 实战 


191 需求 分 析 


电网 属国 家 级 垄断 行业 ， 该 行业 需求 遍及 城乡 企业 、 集 体 组 织 和 个 体 用 户 ， 覆 盖 率 几 
Fi 100%。 由 于 在 电网 线路 传送 过 程 中 ， 电 流 流 经 具有 电阻 的 电网 线路 时 会 产生 热量 而 
造成 电能 损耗 ， 将 进一步 导致 线路 老化 、 终 端 电压 过 低 、 部 分 线路 发 生 热 损 故障 、 用 电 成 
本 持续 上 升 等 负面 影响 。 解 决 这 些 问 题 ， 需 通过 大 量 数据 进行 统计 和 分 析 。 

电力 大 数据 主要 服务 应 用 于 以 下 几 个 方面 : 首先 是 规划 ， 通 过 大 数据 分 析 利 用 数据 挖 
掘 技术 提升 负荷 预测 能 力 ;， 其 次 是 检修 ， 通 过 研究 消 缺 、 检 修 、 运 行 工 况 、 气 象 条 件 等 因 
素 对 设备 状态 的 影响 ， 利 用 大 数据 计算 等 技术 实现 检修 策略 化 ， 提 升 状 态 检修 管理 能 力 ; 
最 后 是 运 监 ， 利 用 聚 类 、 模 式 识 别 、 可 视 化 、 并 行 处 理 技术 ， 实 现 全 方位 的 在 线 监测 、 分 
析 、 计 算 ， 提 高 数据 质量 监控 和 治理 ， 对 设备 故障 做 出 预 判断 ， 提 前 消除 设备 故障 对 生产 
带 来 的 不 良 因 素 ， 提 升 连续 运行 能 力 。 

大 数据 具有 4V 特点 : Volume (AE), Velocity (高 速 )、Variety (多 样 )、Value( 价 
值 )。2012 «E 7 H 10 日， 联合 国 发 布 政务 白皮书 《大 数据 促 发 展 : 挑战 和 机 遇 》 建 议 联合 
国 成 员 国 开发 大 数据 潜在 价值 。 李克强 总 理 在 2014 年 两 会 政府 工作 报告 中 , 多 次 提 到 一 个 
热 词 一 一 “大 数据 ”。 此外， 百度 、 新 浪 、 京 东 等 著名 企业 已 在 大 数据 方面 展开 相关 研究 ， 
发 布 了 若干 大 数据 研究 报告 。 

电网 公司 基于 现 有 各 种 监测 指标 建立 了 较为 完善 的 供电 质量 运行 体系 ， 信 息 系 统 建设 
方面 已 实现 基地 试验 设备 数据 采集 。 由 于 采集 数据 量 庞大 ， 传 统 的 分 析 技 术 难 以 进行 细 化 
和 量化 分 析 。 为 充分 发 挥 采 集 数 据 的 作用 ， 满 足 对 数据 深化 应 用 和 数据 存储 、 查 询 、 统 计 、 
分 析 及 对 数据 价值 深入 挖掘 的 需求 ， 通 过 领先 的 数据 融合 、 数 据 清洗 、 数 据 治 理 以 及 大 数 
据 挖掘 等 相关 技术 手段 提升 数据 应 用 价值 成 为 重要 手段 。 


192 项 目 设 计 


基于 电力 大 数据 采集 产生 监测 数据 构建 的 供电 设备 分 析 模型 ， 用 于 工作 站 对 辖区 线路 
设备 的 运行 情况 进行 综合 评估 ， 有 利于 从 分 析 结果 中 预测 线路 设备 是 否 会 发 现 异常 ， 从 而 
做 到 节约 能 源 和 提前 预防 以 减少 临时 故障 带 来 的 损失 。 电 力 数据 分 析 平 台 主 要 分 为 三 部 分 


1921 数据 采集 
用 分 布 数据 采集 系统 对 监测 点 采集 站 进行 数据 收集 ， 通 过 传输 电缆 将 收集 到 的 数据 
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传送 至 中 央 控 制 站 ， 其 中 地 面 采 集 站 探测 器 按 线路 相 线 布 置 ， 负 责 采 集 一 个 或 几 个 测 点 的 
物理 数据 ， 中 央 控 制 站 则 完成 其 所 在 站 点 的 数据 记录 和 质量 监控 。 最 后 将 中 央 控 制 站 的 数 
据 发 送 至 大 数据 集群 ， 流 程 如 图 19.1 所 示 。 


Al 点? KN 点 1 点 2 AN Al 点 2 KN 
中 央 控制 站 1 中 央 控制 站 2 € 中 央 控 制 站 N 
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19.2.2 数据 处 理 


基于 大 数据 集群 中 的 生产 数据 ， 按 照 业务 流程 对 数据 进行 统计 分 析 ， 通 过 季节 、 气 候 
和 专家 经 验 评价 等 因素 ， 综 合计 算得 出 分 析 结 果 ， 再 将 分 析 结果 上 传 至 RDBMS 使 用 Web 
页 面 进行 展示 ， 展 示 流 程 如 图 19.2 所 示 。 


19.2.3 数据 呈现 


基于 RDBMS 和 Web 的 业务 展示 分 为 柱状 对 比 图 、 趋 势 图 、 热 力图 、 饼 图 和 列表 。 

柱状 图 用 于 展示 同一 时 间 内 各 个 单位 的 电能 质量 、 各 个 单位 的 上 月 (年) 电能 质量 和 
上 级 单位 的 电能 质量 柱状 对 比 。 通 过 对 比 可 发 现在 当前 时 间 哪 个 单位 的 电能 质量 下 降 ， 以 
判断 该 单位 所 管 的 辖区 内 是 否 出 现 线 路 异常 。 也 可 通过 单 击 柱状 条 进一步 获取 该 单位 的 哪 
些 线路 出 现 了 异常 。 

通过 趋势 图 可 展示 出 同一 时 间 内 各 单位 的 电能 质量 历史 趋势 线 和 预测 趋势 线 。 决 策 者 
可 以 根据 预测 趋势 线 作 出 决策 ， 为 风险 防范 提供 依据 。 

通过 地 图 热力 图 显示 某 块 区 域内 的 电能 质量 的 变化 ， 以 颜色 的 从 浅 到 深 变 化 来 展示 电 
能 质量 的 危险 级 别 。 决 策 者 可 根据 危险 级 别 查看 该 区 域 的 详细 信息 ， 并 生成 报表 以 向 下 级 


单位 下 达 处 理 命令 。 


MapReduce 


人 饼 图 展示 各 单位 的 电能 质量 合格 的 占 比 。 通 过 对 占 比 数据 的 分 析 可 判断 电能 质量 过 低 
的 区 域 ， 进 一 步 获取 该 区 域 可 查看 区 域内 线路 的 详细 信息 及 不 达标 情况 。 
通过 Web 页 面 展 示 数 据 ， 登 录 页 面 将 进入 到 图 19.3 页 面 ， 默 认为 省 会 城市 近 一 年 的 
电压 波动 范围 超标 的 曲线 ， 可 单 选 或 多 选 不 同城 市 并 查看 该 城市 电压 波动 范围 超标 情况 的 
对 比 。 单 击 曲线 可 获取 该 城市 该 月 电压 波动 范围 超标 的 详细 情况 。 


下 面 介绍 项 目的 数据 模型 

电压 波动 趋势 的 表 结构 如 表 19.1 所 示 。 

表 19.1 
字段 说 明 
city name 城市 名 称 
power error number 电压 超标 数量 
month time 月 度 时 间 


超标 电压 的 详细 表 结 构 如 表 19.2 所 示 。 


表 192 
字段 说 明 
city_name 城市 名 称 第 
month time 月 度 时 间 19 
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AR 
FR 说 明 
user name 户 号 
dq_name 台 区 名 称 
power org 供电 单位 
power type 电压 级 别 
time 监测 时 间 
error power 超标 电压 
超标 电压 波动 趋势 展示 如 图 19.3 Has. 
超标 电压 波动 趋势 图 超标 电压 详细 表 | 
城市 : [南京 可 月 度 时 间 :| 2015-09 [gs] 
超标 次 数 
230 
229 
228 
227 
226 
225 
224 
201410 201411 201412 201501 201502 201503 201504 201505 201506 201507 201508 201509 
时 间 
图 19.3 


超标 电压 的 详细 表 展 示 如 图 19.4 所 示 。 


城市 。 南京 


超标 电压 波动 趋势 图 | 超标 电压 详细 表 
时 间 ，2015-06 供电 单位 :| 全 部 z 各区 名 称 : | 全 部 
2015/06 738019173 


2015/06 


2015/06 
2015/06. 
2015/06. 


2015/06 
2015/06. 
2015/06 
2015/06. 
2015/06 
2015/06. 
2015/06. 
2015/06. 


155317687 
702356766 
155484499 Pus (LIBJ BEL 南京 市 高 浮 区 供电 公司 
734014427 PES_ 北 满 小 区 1 南京 市 高 浮 区 供电 公司 
736016692 PES, dl 家 市 高 浮 区 供电 公司 
155141277 PAS ARAH FIE [£103 
702354302 PIS _ 镇 南村 茶花 塘 RASH 


739011318 PMS_ 花 义 村 广 寺 里 2# RASA 
732033197 PES hi BE 南京 市 高 潭 区 供电 公司 
702354033 Pus PUA E SH RAG 
155490557 PS_ 赵 村 长 村 西溪 供电 所 
702366211 PIS_ 永 庆 村 地 山大 西溪 供电 所 
702354354 PES_ 观 溪村 新 村 EL LÀ 
702359584 PES RE HERG 


了 


四 线 2015/06/01 23:45 
四 线 2015/06/11 23:45 
LEJ 2015/06/21 2345 
四 线 2015/06/31 20:45 
四 线 2015106123 2345 
四 线 2015/06/18 23:45 
WEA 2015/06/01 23:45 
四 线 2015/06/01 23:45 
四 线 2015/0601 03:15 
四 线 2015/06/01 23:45 


四 线 2015/06/01 23:45 
四 线 2015/06/01 23:45 
四 线 2015/06/01 23:45 
四 线 2015/06/01 23:45 
四 线 2015/06/01 23:45 
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236. 83 
55. 51 
74.63 
164.19 
308. 78 
273. 00 
359. 72 
307.81 
194. 86 
248. 61 
342. 85 
253. 00 
33.68 
20.66 


19.3 ”数据 收集 与 处 理 


19.3.1 数据 收集 
电力 监测 数据 是 采用 分 布 数 据 采 集 系 统 对 监测 点 采集 站 进行 数据 收集 ， 并 通过 传输 电 


I 
的 物 


送 至 中 央 控 制 站 ， 其 9 


Ph 地 面 采集 站 探测 器 按 线路 相 线 布置 ， 负 责 采 集 一 个 或 几 个 测 点 


理 数 据 。 由 于 电力 大 数据 分 析 项 目 以 数据 处 理 和 呈现 讲解 为 主 ， 并 无 真实 数据 ， 因 此 
我 们 通过 人 为 造 数 假设 已 有 数据 进行 分 析 处 理 。 
监测 数据 Cmonitor data) 表 如 图 19.5 Jr. 


接线 方式 计量 点 电压 等 级 
V380 


每 天 


三 相 四 线 0.4k) 
三 相 四 线 


0.4kV380 
0.4kV380 
0.4kV380 
0.4kV380 
0.4kV380 
0.4kV380 
0.4kV380 
0.4kV380 
0.4kV380 
0.4kV380 


户 号 
0152405348 
0732036159 
0702353810 
0155062744 
0738019173 
0155317687 
0702356766 
0155484499 
0734014427 
0736016692 
0155141277 


ARRS 
0190000207675 
0190000182806 
3090102301575 

90100685501 
0190000246986 
3090102145727 
0190000190359 
3090102058657 
0190000232752 
0190000232723 
0190000185079 


图 


数据 日 期 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 
2015/1/16 0:00 


19:5 


监测 数据 记录 台 区 一 条 线路 范围 ) 某 个 点 的 电压 波动 范围 ,每 15 分 钟 监测 一 次 ， 


监测 96 次 。 
单位 信息 数据 (city_data〉 表 如 图 19.6 所 示 。 

台 区 编号 名 称 供电 单位 城市 
0190000207675 PMS Diis 南京 市 高 淳 区 供电 公司 南京 
0190000182806 PMS _ 阳 江 新 正 新 圩 阳江 供电 所 南京 
3090102301575 PMS_ 春 林村 2# 南京 市 高 涪 区 供电 公司 南京 

90100685501 PMS_ 阳 江 王家 圩 #1 阳江 供电 所 南京 
0190000246986 PMS_ 枉 溪村 永 兴 集 贸 小 区 2# 枉 溪 供电 所 南京 
3090102145727 PMS _ 漆 桥 双 望 路 2# 漆 桥 供电 所 南京 

图 19.6 
单位 信息 记录 台 区 编号 、 台 区 名 称 和 该 台 区 属于 哪个 供电 单位 的 结构 信息 。 


19.3.2 数据 处 理 
1. 转换 数据 (Dataconvert ) 
通过 观察 ， 一 天 为 1 条 记录 数据 。 若 统计 电压 超标 的 波动 次 数 ， 首 先 需 将 一 天 1 条 的 
统计 数据 转变 成 一 天 96 条 ， 每 条 数据 均 有 接线 方式 、 计 量 点 电压 等 级 、 户 号 、 台 区 编号 、 


数据 


期 和 电压 字段 。 监 测 时间 每 15 分 钟 一 次 ，U1 Jy 00:15, U2 为 00:30, 


23:45 分 ， 将 时 间 精 确 到 分 钟 并 对 应 值 ， 一 次 监测 点 为 一 条 记录 ， 如 图 19.7 所 示 。 
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接线 方式 计 里 点 电压 等 级 PS 台 区 编号 数据 日 期 ut a paaa U95 U96 
三 相 四 线 | 0.4kV380 | 0152405348 0190000207675 2015/1/16 0:00 | 22440 | 224.90 | 22690 | 22500 | 224.80 


| 
0.4kV380 0732036159 | 0190000182806 | 2015/1/16 0:00 | 22160 | | 22620 | 22650 | 221.70 
0.4kV380 | 0702353810 | 3090102301575. | 2015/1160:00 | 221.60 | 22290 | 22140 | 22230 | 22240 
0.4kV380 0155062744 90100685501 2015/1/16 0:00 22280 | 22280 | 22380 | 22260 | 22280 
转换 
接线 方式 “计量 点 电 正 等 月 PS AKES HARAM 电压 
U | 0.4kV380 0152405348 | 0190000207675 | 20151116 00:15 | 22440 
u2 0.4kV380 0152405348 0190000207675 2015/1/16 00:30 | 22490 
Bala 0.4kV380 | 0152405348 | 0190000207675 | 2015/1/16 | 226.90 
u95 0.4kV380 0152405348 | 0190000207675 | 2015/1/16 23:30 | 225.00 
Um 三 0.4kV380 0152405348 0190000207675 2015/1/16 23:45 | 224.80 
图 19.7 


配置 类 : 


Package com.bunfly.dataconvert; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 


public class DataConvert Conf { 
public void Config() throws Exception { 
// 获 取 配 置 文件 中 的 参数 
Configuration conf = new Configuration(); 
// 通 过 参数 配置 获取 一 个 Job 对 象 
Job job = Job.getInstance(conf,"DataConvert Conf"); 
// 启 动 Job 需 要 知道 的 入 口 
job.setJarByClass (DataConvert Conf.class) ; 
// 启 动 Map 入 口 
job.setMapperClass (DataConvert Mapper.class) ; 
// 设 置 Reduce 输 出 的 数量 
job.setNumReduceTasks (0); 
// 设 置 key 值 的 输出 类 型 
job.setOutputKeyClass (Text .class); 
// 设 置 value 值 的 输出 类 型 
job.setOutputValueClass (Text.class) ; 
// 设 置 输入 源 
String inl = "/input/monitor data": 
// 设 置 输出 源 
String out = "/output/convert result", 
// 将 输入 、 输 出 字符 路 径 转 为 Path 类 型 
Path inputl = new Path(inl); 
Path output - new Path(out); 
// 将 路 径 加 入 到 文件 格式 中 


} 


FileInputFormat.addInputPath(job, inputl); 
FileOutputFormat.setOutputPath(job, output); 

System. out.println(job.waitForCompletion(true) ? 0 : 1); 
} 


Mapper 类 : 


Package com.bunfly.dataconvert; 


import java.io.IOException; 


import java.text.DateFormat; 


import java.text.SimpleDateFormat; 


import java.util.Calendar; 


import java.util.Date; 
import org.apache.hadoop.io.Text; 


import org.apache.hadoop.mapreduce.Mapper; 
public class DataConvert Mapper extends Mapper<Object, Text, Text, Text> { 


public void map (Object key, Text value, Context context) 

throws IOException, InterruptedException { 

String[] q = value.toString() .split("\t"); 

String ymd = DataConvert Mapper. YearConvert (q[4]); 

String hms=null; 

String time=null; 

int j=0; 

for (int i=5; i<q.length; i++) { 
hms = DataConvert Mapper.HourConvert (j); 
time = ymd +"/"+ hms; 
//9q[0] 接 线 方式 、q[1] 计 量 点 电压 等 级 、q[2] 户 号 、q[3] 台 区 编号 、q[4] 数 据 
// 日 期 、q[5] 电 压 
context.write (new Text (q[0] +"\t"+ q[1] +"\t"+ q[2] +"\t"+ q[3] 
+"\t"+ time), new Text (gq[i])); 
j+=15; 


} 
// 提 取 时 分 
public static String HourConvert (int i) ( 
String time = "2010-01-01 00:00:00"; 
DateFormat dateFormat2 = new SimpleDateFormat ("yyyy-MM-dd HH:mm:ss"); 


Calendar cal = Calendar.getInstance(); 
String ss = null; 


try { 
cal.setTime (dateFormat2.parse (time) ); 
// 当 前 时 间 加 多 少 分 钟 
cal.add(Calendar.MINUTE,i): 


Date a = cal.getTime (); 
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ss = dateFormat2.format(a).substring(11, 19); 
} catch (Exception e) { 
e.printStackTrace(); 
} 
return ss; 
H 
// 提 取 年 月 月 
public static String YearConvert (String time) { 
DateFormat dateFormat2 = new SimpleDateFormat ("yyyy/MM/dd") ; 
String year = null; 
try í 
String tiem = dateFormat2.format (dateFormat2.parse (time) ); 
year = tiem.substring(0, 10); 
} catch (Exception e) { 
e.printStackTrace (); 
} 
return year; 


} 


2. 清理 数据 ( Cleardata ) 

根据 业务 要 求 ， 需 找 出 电压 波动 超标 的 电压 。 按 电网 电压 标准 ， 家 用 正常 电压 的 范围 
是 220-0.1V~220+0.07V, Ziti ct MapReduce 程序 筛选 出 非 正 常 的 电压 。 在 电压 中 如 存在 
"E. 0 等 特殊 电压 ， 不 能 作为 路 线 与 否 的 判断 依据 ， 因 此 须 剔 除 该 类 记录 。 

配置 类 : 


package com.bunfly.cleardata; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
public class ClearData Conf { 
public static void main(String[] str) throws Exception { 
ClearData Conf a = new ClearData Conf(); 
a.Config(); 
S 
public void Config() throws Exception ( 
// 获 取 配 置 文件 中 的 参数 
Configuration conf = new Configuration (): 
// 通 过 参数 配置 获取 一 个 Job 对 象 
Job Job = Job.getInstance(conf,"ClearData Conf"); 
// 启 动 Job 需 要 知道 的 入 口 
job.setJarByClass (ClearData Conf.class); 


// 启 动 Map 入 口 

job.setMapperClass (ClearData Mapper.class); 
// 启 动 Reduce 入 口 

// 设 置 Reduce 输 出 的 数量 

job. setNumReduceTasks (0) ; 

// 设 置 key 值 的 输出 类 型 

job.setOutputKeyClass (Text.class); 

// 设 置 value 值 的 输出 类 型 

job.setOutputValueClass (Text .class); 

// 设 置 输入 源 

String inl = "/output/convert result/p*"; 

// 设 置 输出 源 

String out = "/output/cleardata"; 

// 将 输入 、 输 出 字符 路 径 转 为 Path 类 型 

Path inputl = new Path(inl); 

Path output = new Path (out); 

// 将 路 径 加 入 到 文件 格式 中 
FileInputFormat.addInputPath(job, inputl); 
FileOutputFormat.setOutputPath(job, output); 
System.out.println(job.waitForCompletion(true) ? 0 : 1); 


} 
Mapper 25: 


package com.bunfly.cleardata; 
import java.io. IOException; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Mapper; 
public class ClearData Mapper extends Mapper<Object, Text, Text, Text> { 
public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
String[] q = value.toString() .split("\t"); 
/ LS EC 22 f io 
if (q.length « 6) ( 
return; 
n 
/ SMS ELA 0 RW ELA 22 TE CR 
if (q[5]-equals("0") || q[5].equals(null) || q[5].equals("")) ( 
return; 
} 
try ( 
Double d = Double.parseDouble(q[5]); 
// 判断 电压 是 否 超标 


abe (il ag WIENS) || Kel poesia yay * 
context.write(new Text(q[0] +"\t"+q[1] +™\t"+q[2] + 19 
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new Text ()): 


} 
} catch (Exception e) { 
e.printstackTrace (): 


) 


3. 关联 数据 (Relation ) 

根据 业务 要 求 ， 关 联 台 区 编码 、 台 区 名 称 、 供 电 单位 、 城 市 、 接 线 类 型 、 电 压 类 型 、 
用 户 号 、 监 测 时 间 、 月 度 时 间 和 超标 电压 字段 。 

配置 类 : 


package com.bunfly.Relation; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.Text: 
import org.apache.hadoop.mapreduce. Job: 
import org.apache.hadoop.mapreduce. lib. input.FileInputFormat: 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
public class Relation Conf ( 
// 合 并 所 需要 的 字段 
public static void Config() throws Exception { 
// 获 取 配 置 文件 中 的 参数 
Configuration conf = new Configuration(); 
// 通 过 参数 配置 获取 一 个 Job 对 象 


Job job = Job.getInstance (conf, "CountPower Conf"); 


// 启 动 Job 需 要 知道 的 入 口 

job.setJarByClass (Relation Conf.class); 

// 启 动 Map 入 口 

job.setMapperClass (Relation Mapper.class) ; 
// 启 动 Reduce 入 口 


job.setReducerClass (Relation Reduce.class) ; 


// 设 置 Reduce 输 出 的 数量 
job.setNumReduceTasks (1); 

// 设 置 key 值 的 输出 类 型 
job.setoutputKeyClass (Text.class) ; 
// 设 置 value 值 的 输出 类 型 
job.setOutputValueClass (Text.class); 


// 设 置 输入 源 
String inl = "/output/cleardata/part*"; 


string in2 = "/input/city data", 
// 设 置 输出 源 


String out = "/output/countpower"; 

// 将 输入 、 输 出 字符 路 径 转 为 Path 类 型 

Path inputl = new Path(inl); 

Path input2 new Path (in2); 

Path output = new Path (out); 

// 将 路 径 加 入 到 文件 格式 中 
FileInputFormat.addInputPath (job, inputl); 


FileInputFormat.addInputPath (job, input2); 
FileOutputFormat.setOutputPath(job, output); 
System.out.println(job.waitForCompletion(true) ? 0 : 1); 


} 
Mapper 类 : 


package com.bunfly.Relation; 
import java.io.IOException; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.InputSplit; 
import org.apache.hadoop.mapreduce.Mapper: 
import org.apache.hadoop.mapreduce.lib.input.FileSplit; 
public class Relation Mapper extends Mapper«Object, Text, Text, Text» ( 
public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
InputSplit 七 = context.getInputSplit(); 
String path = ((FileSplit) t).getPath().getName(); 
System.out.println (path); 
if (path.contains("part")) ( 
String[] q = value.toString().split("\t"); 
String month thime = q[4].substring(0,7); 
// 以 台 区 编码 为 key， 并 给 记录 信息 作 标 记 (AAAAA) 
//9q[0] 接 线 类 型 、q[1] 电压 等 级 、q[2] 户 号 、q[4] 监 测 时 间 、q[5] 超 标 值 、 
// 时 度 时 间 、 超 标 次 数 为 1 
context .write (new Text(q[3]), 
new Text ("AAAAA" +"\t"+ q[0] +"\t"+ q[1] +"\t"+ q[2] 
PAEST GE 
+"\t"+ q[5] +"\t"+ month thime +"\t"+ "1"7)); 
) else if (path.contains("city data")) ( 
String[] q = value.toString().split("Nt"); 
// 将 县 组 区 域 编码 作为 key, value: BBBBB 标 识 ，q[1] 台 区 名 称 ，q[2] 供 电 所 ， 
//q[3] 城 市 
context .write (new Text(q[0]), 
new Text ("BBBBB" +"\t"+ q[1] +"\t"+ q[2] +"\t"+ q[3])); 


第 


19 
章 


AF D EIS AERA 


Hadoop+Spark AHER (RE) 


Reduce 类 : 


package com.bunfly.Relation; 
import java.io.IOException; 
import java.util.ArrayList; 
import java.util.List, 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Reducer; 
public class Relation Reduce extends Reducer<Text, Text, Text, Text» ( 
public void reduce (Text key, Iterable<Text> values, Context context) 
throws IOException, InterruptedException { 
// 用 来 装 houses number 表 内 容 
List<String> list = new ArrayList<String>(); 
// 用 来 装 org number 表 内 容 
List<String> list2 = new ArrayList<String>(); 
for (Text val : values) { 
Stringi] g = val.toString().split("\t"); 
if (q[0].equals("AAAAA")) { 
list.add(q[1] +"\t"+ q[2] +"\t"+ q[3] +"\t"+ q[4] +"\t"+ q[5] 
PENCE lol CHANEL o [AG 
} else if (q[0].equals("BBBBB")) { 
list2.add(q[1] +"\t"+ q[2] +"\t"+ qI[3]); 


} 
For (String: ist) 
for(String I-s 113t2) í 
context.write(key, new Text (i +"\t"+ j)); 


统计 超标 数量 ( Count. Error Number ) 
由 分 析 可 知 ， 电 压 波 动 趋势 页 面 需要 展示 电压 波动 范围 超标 的 同一 城市 在 同一 时 间 内 
的 数量 ， 满 足 页 面 要 求 需 城市 名 称 、 电 压 超 标 数 据 和 月 度 时 间 字 段 。 
配置 类 : 


package com.bunfly.count error number; 

import org.apache.hadoop.conf.Configuration: 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce. Job: 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
public class Count Error Number { 


// 统 计 超标 数量 

public static void Config() throws Exception { 
// 获 取 配 置 文件 中 的 参数 
Configuration conf = new Configuration(); 
// 通 过 参数 配置 获取 一 个 Job 对 象 
Job job = Job.getInstance(conf,"Count Error Number"): 
// 启 动 Job 需 要 知道 的 入 口 
job.setJarByClass (Count Error Number.class); 
// 启 动 Map 入 口 
job.setMapperClass (Count Error Number Mapper.class); 
// 启 动 Reduce 入 口 
job.setReducerClass (Count Error Number Reduce.class); 
// 设 置 Reduce 和 输出 的 数量 
job.setNumReduceTasks (1) ; 
// 设 置 key 值 的 输出 类 型 
job.setoutputKeyClass (Text.class); 
// 设 置 value 值 的 输出 类 型 
job.setOutputValueClass (Text .class); 
// 设 置 输入 源 
String inl = "/output/countpower/part*"; 
// 设 置 输出 源 
String out = "/output/count error number"; 
// 将 输入 、 输 出 字符 路 径 转 为 Path 类 型 
Path inputl = new Path (inl); 
Path output = new Path(out); 
// 将 路 径 加 入 到 文件 格式 中 
FileInputFormat.addInputPath(job, inputl); 
FileOutputFormat.setOutputPath(job, output); 
System.out.println(job.waitForCompletion(true) ? 0 : 1); 


} 
Mapper 类 : 


package com.bunfly.count error number; 

import java.io.IOException; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Mapper; 

public class Count Error Number Mapper extends Mapper<Object, Text, Text, 

Text> { 

public void map (Object key, Text value, Context context) 

throws IOException, InterruptedException { 
String[] q = value.toString()-split("\t"); 
// 以 台 区 编码 为 key， 并 给 记录 信息 作 标 记 (AAAAA) 
//9q[10] 城 市 、q[6] 月 度 时 间 
context .write (new Text (q[10] +"\t"+ q[6]), 
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new Text("1")); 


} 
Reduce 类 : 


package com.bunfly.count error number, 
import java.io.IOException; 
import org.apache.hadoop.io.Text, 
import org.apache.hadoop.mapreduce.Reducer; 
public class Count Error Number Reduce extends Reducer<Text, Text, Text, 
Text» { 
public void reduce (Text key, Iterable<Text> values, Context context) 
throws IOException, InterruptedException { 
int i=0; 
int sum-0, 
for(Text val : values) ( 
i = Integer.valueOf (val.toString()); 
sum = sum + i; 


context.write(key, new Text (sumi"")): 


} 

5， 列 出 超标 详情 (List Error Data ) 

通过 异常 电压 趋势 图 可 单 击 某 点 获取 该 单位 在 选取 时 间 内 超标 电压 的 详细 情况 ， 超 标 
详细 情况 表 由 城市 、 日 度 时 间 、 户 号 、 台 区 名 称 、 供 电 单位 、 电 压 级 别 、 监 测 时 间 和 


超标 电压 字段 组 成 。 在 超标 电压 详细 情况 表 中 可 根据 供电 单位 和 台 区 名 称 进 一 步 筛选 出 超 


LL 


电压 的 详细 信息 。 
配置 类 ， 


package com.bunfly.list error power: 
import org.apache.hadoop.conf.Configuration: 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io. Text: 
import org.apache. hadoop.mapreduce. Job: 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
public class List Error Data ( 
// 列 出 超标 详情 
public static void Config() throws Exception { 
// 获 取 配置 文件 中 的 参数 
Configuration conf = new Configuration(); 
// 通 过 参数 配置 获取 一 个 Job 对 象 
Job job = Job.getInstance(conf,"List Error Data"); 
// 启 动 Job 需 要 知道 的 入 口 


job.setJarByClass (List Error Data.class); 

// 启 动 Map 入 口 

job.setMapperClass (List Error Data Mapper.class) ; 
// 启 动 Reduce 入 口 

// 设 置 reduce 输 出 的 数量 
job.setNumReduceTasks (0); 

// 设 置 key 值 的 输出 类 型 

job.setoutputKeyClass (Text.class) ; 

// 设 置 value 值 的 输出 类 型 
job.setoutputValueClass (Text .class); 

// 设 置 输入 源 

String inl = "/output/countpower/part*"; 

// 设 置 输出 源 

string out = "/output/list error data", 

// 将 输入 、 输 出 字符 路 径 转 为 Path 类 型 

Path inputl = new Path (inl); 

Path output = new Path (out); 

// 将 路 径 加 入 到 文件 格式 中 
FileInputFormat.addInputPath(job, inputl); 
FileOutputFormat.setOutputPath(job, output); 
System.out.println(job.waitForCompletion(true) ? 0 : 1); 


5 
Mapper 25: 


package com.bunfly.list error power; 
import java.io.IOException; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Mapper; 
public class List Error Data Mapper extends Mapper«Object, Text, Text, 
Text» ( 
public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
String[] q = value.toString().split("\t"); 
// 以 台 区 编码 为 key， 并 给 记录 信息 做 标记 CAAAAA) 
/* q[10] 城 市 q[6] 月 度 时 间 gf[3] 户 号 gr[8] 台 区 名 称 q[9] 供 电 单 位 
* q[1] 电 压 级 别 apa] 监测 时 间 gq[5] 值 
*/ 
context.write (new Text(q[10]), 
new Text(q[6] +™\t"+ q[3] +™\t"+ 可 [8] +"\t"+ q[9] 
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6. AH (MainMethod ) 
MainMethod 类 是 执行 整个 离线 程序 的 主 入 口 。 
package com.bunlfy.main; 
import com.bunfly.Relation.Relation Conf; 
import com.bunfly.cleardata.ClearData Conf; 
import com.bunfly.count error number.Count Error Number; 
import com.bunfly.dataconvert.DataConvert Conf; 
import com.bunfly.list error power.List Error Data, 
public class MainMethod ( 
public static void main(string[] args) throws Exception ( 
// TODO Auto-generated method stub 
// 转 换 数据 
DataConvert Conf.Config(); 
// 数 据 清理 
ClearData Conf.Config(): 
// 合 并 所 需要 的 字段 
Relation Conf.Config(); 
// 统 计 超 标 数 量 
Count Error Number.Config(); 
// 列 出 超标 电压 详情 
List Error Data.Config(): 


} 

7 程序 运行 流程 图 

将 程序 生成 的 PowerProjectjar 包 上 传 至 大 数据 集群 ， 执 行 hadoop jar PowerProject.jar 
命令 开始 运行 程序 。 首 先 找到 程序 入 口 MainMethod 类 , 并 依次 执行 MainMethod 类 中 的 语 
f], DataCaonvert Conf 类 将 HDFS 中 的 HDFS:/input/monitor data 文件 中 的 数据 转换 成 一 
次 监测 时 间 为 一 条 记录 ， 并 输出 至 HDFS:/output/convert_result 目录 。ClearDate_Conf 类 在 
HDFS:/output/convert_result 目录 中 读 取 数据 ， 对 无 效 数据 进行 清洗 ， 并 输出 数据 至 
HDFS:/output/cleardata. Relation Conf 从 HDFS:/output/cleardata 和 HDFS:/input/city data 
中 读 取 数据 ， 根 据 业 务 要 求 从 HDES:/inputcity data 文件 中 关联 出 城市 、 台 区 名 称 等 信息 
后 将 数据 输出 至 HDFS:/output/countpower 目录 。Count Error Number 类 用 于 实现 电压 波动 
超标 趋势 图 页 面 ， 根 据 业 务 分 析 ， 得 知 该 页 面 需要 城市 、 月 度 时 间 和 电压 超标 数量 三 个 字 
Bt. Count Error Number 类 读 取 HDFS:/output/countpower/part* 2f, 通过 对 数据 统计 分 析 
得 出 结果 , 并 输出 至 HDFS:/output/count_error number 文件 。 List Error Data 类 用 于 实现 超 
标 电压 详细 列表 ， 用 户 可 在 电压 波动 超标 趋势 图 页 面 中 单 击 某 个 城市 获取 某 个 时 间 电压 超 
标的 详细 情况 , 可 在 详细 页 面 中 通过 选择 供电 单位 和 电压 名 称 进 行 筛选 电压 超标 详细 情况 ， 
根据 对 业务 的 分 析 ， 得 知 该 页 面 需要 城市 名 称 、 月 度 时 间 、 户 号 、 台 区 名 称 、 供 电 单位 、 
电压 级 别 . 监 测 时 间 和 超标 电压 字段 .List_ Error Data 类 读 取 HDFS:/output/countpower/part* 
文件 ， 通 过 对 数据 筛选 得 出 结果 ， 并 输出 至 HDFS:/output/list error data 目录 。 


程序 运行 流程 如 图 19.8 所 示 。 


AU MainMethod (程序 入 口 ) 
Y 统计 超标 数量 
DataConvert Conf 
ii: /input/monitor_data 源 Rr MAU ae 
转换 数据 原 :/output/countpower/pal 
Data Conv. t Mapper 
Hi :/output/convert result Count Error Numbe Mapper 
1 Count Error Number Reduce 
ClearData Conf ifi :/output/count_error_number 
ilii :/output/conver t_result/p* 
数据 清理 
ClearData Mapper 
出 :/output/cleardata D 
<a 列 出 超标 电压 详 傅 
y 
Relation Conf List Error Data 
ilii :/outputcleardata/ part fi] iii: /output/countpower/part* 
/input/city_data 
合并 所 需要 
Hi TM * Relation. Mapper List Error Data Mapper 
Hi :/output/list error data 
Relation Reduce 
Hi :/output/countpower 


图 198 


19.4 大 数据 呈现 


19.4.1 数据 传输 

大 数据 呈现 是 以 B/S 方式 在 Web 页 面 呈现 出 来 。 由 于 无 法 在 Hadoop 大 数据 集群 中 进 
行 实时 响应 ， 所 以 需要 把 分 布 文件 系统 中 的 数据 传输 至 关系 型 数据 库 ， 再 编写 Java 代码 ， 
在 关系 型 数据 库 (MySQL) 中 读 取 数据 。 

Sqoop 是 一 款 开源 工具 , 主要 用 于 在 Hadoop 与 传统 的 数据 库 (MySQL、 PostgreSQL…) 
间 进 行 数据 的 传递 ， 可 将 一 个 关系 型 数据 库 〈 例 如 MySQL. Oracle. PostgreSQL 等 ) 中 的 
数据 导 进 到 Hadoop 的 HDFS 中 , 也 可 将 HDES 的 数据 导 进 到 关系 型 数据 库 中 。 若 从 HDFS 
中 导入 数据 到 关系 数据 库 中 ， 关 系数 据 库 中 需 先 有 对 应 的 表 来 存储 导入 的 数据 。 具 体操 作 
如 下 : 


sqoop export --connect jdbc:mysql://192.168.153.205:3306/bunfly? 
characterEncoding=UTF-8 --username root -password 123456 --table count 


error eonf --export-dir '/output/count error number/p*' --fields- 第 
terminated-by '\t' 19 
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导入 的 电压 波动 趋势 表 (Count Error Conf) 的 表 结 构 如 表 19.3 所 示 。 


表 19.3 
字段 说 明 
city name 城市 名 称 
power error number 电压 超标 数量 
month time 月 度 时 间 


sqoop export --connect jdbc:mysql://192.168.153.205:3306/bunfly? 
characterEncoding=UTF-8 --username root -password 123456 --table list 
error data --export-dir '/output/list error data/p*' --fields- 


terminated-by '\t' 


导入 的 超标 电压 详细 表 (List Eror Data) 结构 如 表 19.4 所 示 。 


表 19.4 
字段 
city name 
month time 
user name 
dq name 
power org 
power type 
time 


eror power 


19.4. 数据 呈现 
超标 电压 波动 趋势 页 面 如 图 19.9 所 示 。 


超标 电压 波动 趋势 图 超标 电压 详细 表 
城市 ; | 南京 Li 月 度 时 间 : | 2015-09 H 分 析 | 


超标 次 数 
230 


201410 201411 201412 201501 201502 201503 201504 201505 


说 明 

城市 名 称 
月 度 时 间 
户 号 

台 区 名 称 
供电 单位 
电压 级 别 
监测 时 间 
超标 电压 


201506 201507 201508 


201509 
时 间 


超标 电压 详细 表 页 面 如 图 19.10 所 示 。 
超标 电压 波动 趋势 图 | 超标 电压 详细 表 


城市 南京 时 间 ，2015-06 供电 单位 :| 全 部 台 区 名 称 : [ 全 部 可 lar] 


PIS. 1 
南京 2015706 702366211 PIS | Ero HERRE 三 相 四 线 2015/06/01 23:45 253. 00 
南京 201506 702354354 PWS_ 观 溪村 新 村 HARE 三 相 四 线 2015/06/01 23:45 33.68 
南京 2015/06 702359584 PWS_ 跃 进 村 东边 庄 HERG 三 相 四 线 2015/06/01 23:45 20. 66 


当前 是 第 :1/124 页 maaa a a x 


图 19.10 


195 项 目 总 结 


建设 节约 型 社会 是 我 国 重大 发 展 战略 之 一 。 我 国 的 现实 国情 要 求 必 须 把 电力 节能 放 在 
节约 能 源 的 重要 位 置 ， 电 力 节能 在 能 源 节约 、 减 少 环境 污染 等 方面 有 着 巨大 的 潜力 ， 是 建 
设 节约 型 社会 的 突破 口 。 本 成 果 可 根据 各 市 实际 情况 进行 实际 运营 ， 通 过 对 采集 线路 的 电 
压 数 据 收集 、 存 储 、 挖 气 、 分 析 和 展示 ， 将 各 单位 管辖 的 线路 电能 运行 情况 和 风险 趋势 以 
图 表 形式 展现 ， 为 职能 部 门 风险 评估 提供 依据 。 若 本 成 果 能 够 上 线 ， 通 过 大 数据 分 析 预 测 
风险 进行 预警 ， 可 下 发 风险 检修 通知 做 出 预防 工作 ， 将 减少 异常 耗 能 和 意外 故障 对 企业 的 
能 源 浪费 、 时 间 浪 费 和 经 济 损失 。 

本 项 目 从 数据 收集 、 数 据 处 理 和 数据 呈现 三 方面 讲解 大 数据 项 目 开发 流程 ， 重 点 讲解 
数据 处 理 。 为 实现 业务 要 求 将 数据 处 理 部 分 分 为 入 口 、 数 据 转换 、 数 据 清洗 、 关 联 、 数 据 
统计 和 数据 详细 6 部 分 ， 通 过 对 数据 的 转换 、 清 洗 、 处 理 将 结果 数据 使 用 Sqoop 工具 导入 
到 MySQL 数据 库 ， 通 过 B/S 的 方式 在 Web 页 面 进行 展示 。 

本 项 目 从 实际 项 目 中 提取 部 分 业务 讲解 大 数据 编程 的 流程 ， 由 浅 到 深 的 讲解 将 帮助 读 
者 理解 项 目 开发 流程 和 代码 现实 ， 增 加 学 习 大 数据 编程 的 信心 。 
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图 书 资源 支持 


感谢 您 一 直 以 来 对 清华 版 图 书 的 支持 和 爱护 。 为 了 配合 本 书 的 使 用 ,本 书 
提供 配套 的 资源 ,有 需求 的 读者 请 扫描 下 方 的 “ 书 圈 " 微 信 公 众 号 二 维 码 , 在 图 
书 专区 下 载 ,也 可 以 拨打 电话 或 发 送 电 子 邮 件 咨询 。 

如 果 您 在 使 用 本 书 的 过 程 中 遇 到 了 什么 问题 ,或 者 有 相关 图 书 出 版 计划 ， 
也 请 您 发 邮件 告诉 我 们 ,以 便 我 们 更 好 地 为 您 服务 。 


之 


我 们 的 联系 方式 : 


地 址 : 北京 海淀 区 双 清 路 学 研 大 厦 A 座 707 
资源 下 载 、 样 书 申 请 


邮 — 45: 100084 (C peas O 


di 


话 : 010— 62770175 — 4604 


资源 下 载 : http://www. tup. com. cn 
电子 邮件 : weijj@tup. tsinghua. edu. cn 
QQ: 883604( 请 写 明 您 的 单位 和 姓名 ) 


用 微 信 扫 一 扫 右 边 的 二 维 码 , 即 可 关注 清华 大 学 出 版 社 公众 号 “ 书 圈 ”。 


